无法在 Google Colab 上安装 PySpark
Unable to install PySpark on Google Colab
我正在尝试使用下面给出的代码在 Google Colab 上安装 PySpark,但出现以下错误。
tar: spark-2.3.2-bin-hadoop2.7.tgz: 无法打开: 没有那个文件或目录
tar:错误不可恢复:现在退出
此代码已 运行 成功一次。但是它在笔记本 restart 之后抛出了这个错误。我什至从另一个 Google 帐户尝试 运行 这个,但再次出现同样的错误。
(还有什么办法可以让笔记本重装后不需要每次都安装PySparktart?)
代码:
---------------------------------------------- ---------------------------------------------- ----------------------------
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
以下这行似乎是导致问题的原因,因为它没有找到下载的文件。
!tar xvf spark-2.3.2-bin-hadoop2.7.tgz
我也试过 medium 博客某处建议的以下两行(而不是上面两行)。但没有更好的了。
!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xvf spark-2.4.0-bin-hadoop2.7.tgz
!pip install -q findspark
---------------------------------------------- ---------------------------------------------- --------------------------
知道如何解决此错误并在 Colab 上安装 PySpark 吗?
我 运行 pyspark on colab 仅使用
!pip 安装 pyspark
而且效果很好。
您收到此错误是因为 spark-2.3.2-bin-hadoop2.7 已替换为官方站点和镜像站点上的最新版本。
转到任何此路径并获取最新版本
替换 spark 构建版本,你就完成了。
一切都会顺利进行。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf /content/spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark
日期:6-09-2020
步骤 1: 在 google colab
上安装 pyspark
!pip install pyspark
第 2 步: 在 spark 会话中处理 pandas 和 spark Dataframe
!pip install pyarrow
It facilitates communication between many components, for example, reading a parquet file with Python (pandas) and transforming to a Spark data frame, Falcon Data Visualization or Cassandra without worrying about conversion.
步骤 3: 创建 Spark 会话
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').getOrCreate()
完成⭐
我曾尝试以相同的方式安装,但即使在检查了正确版本的 spark 之后,我也遇到了同样的错误。
运行 下面的代码对我有用!!
!pip install pyspark
!pip install pyarrow
!pip install -q findspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('HelloWorld').getOrCreate()
我已将以下设置用于 运行 PySpark on Google Colab。
# Installing spark
!apt-get install openjdk-8-jre
!apt-get install scala
!pip install py4j
!wget -q https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
!tar xf spark-2.4.8-bin-hadoop2.7.tgz
!pip install -q findspark
# Setting up environment variables
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.8-bin-hadoop2.7"
# Importing and initating spark
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName("Test Setup").getOrCreate()
sc = spark.sparkContext
我正在尝试使用下面给出的代码在 Google Colab 上安装 PySpark,但出现以下错误。
tar: spark-2.3.2-bin-hadoop2.7.tgz: 无法打开: 没有那个文件或目录
tar:错误不可恢复:现在退出
此代码已 运行 成功一次。但是它在笔记本 restart 之后抛出了这个错误。我什至从另一个 Google 帐户尝试 运行 这个,但再次出现同样的错误。
(还有什么办法可以让笔记本重装后不需要每次都安装PySparktart?)
代码:
---------------------------------------------- ---------------------------------------------- ----------------------------!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
以下这行似乎是导致问题的原因,因为它没有找到下载的文件。
!tar xvf spark-2.3.2-bin-hadoop2.7.tgz
我也试过 medium 博客某处建议的以下两行(而不是上面两行)。但没有更好的了。
!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xvf spark-2.4.0-bin-hadoop2.7.tgz
!pip install -q findspark
---------------------------------------------- ---------------------------------------------- --------------------------知道如何解决此错误并在 Colab 上安装 PySpark 吗?
我 运行 pyspark on colab 仅使用
!pip 安装 pyspark
而且效果很好。
您收到此错误是因为 spark-2.3.2-bin-hadoop2.7 已替换为官方站点和镜像站点上的最新版本。
转到任何此路径并获取最新版本
替换 spark 构建版本,你就完成了。 一切都会顺利进行。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf /content/spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark
日期:6-09-2020
步骤 1: 在 google colab
上安装 pyspark!pip install pyspark
第 2 步: 在 spark 会话中处理 pandas 和 spark Dataframe
!pip install pyarrow
It facilitates communication between many components, for example, reading a parquet file with Python (pandas) and transforming to a Spark data frame, Falcon Data Visualization or Cassandra without worrying about conversion.
步骤 3: 创建 Spark 会话
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').getOrCreate()
完成⭐
我曾尝试以相同的方式安装,但即使在检查了正确版本的 spark 之后,我也遇到了同样的错误。 运行 下面的代码对我有用!!
!pip install pyspark
!pip install pyarrow
!pip install -q findspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('HelloWorld').getOrCreate()
我已将以下设置用于 运行 PySpark on Google Colab。
# Installing spark
!apt-get install openjdk-8-jre
!apt-get install scala
!pip install py4j
!wget -q https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
!tar xf spark-2.4.8-bin-hadoop2.7.tgz
!pip install -q findspark
# Setting up environment variables
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.8-bin-hadoop2.7"
# Importing and initating spark
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName("Test Setup").getOrCreate()
sc = spark.sparkContext