在 Google Colab 上安装 Spark 时出错

Pra*_*har 5 hadoop apache-spark pyspark google-colaboratory

在 Google Colab 上安装 Spark 时出现错误。它说

tar:spark-2.2.1-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录 tar:错误不可恢复:现在退出。

这些是我的步骤

在此处输入图片说明

lie*_*dji 8

问题是由于您用于下载 spark 的下载链接造成的:

http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz

要毫无问题地下载 spark,您应该从他们的存档站点 ( https://archive.apache.org/dist/spark)下载它:

例如,他们档案中的以下下载链接工作正常

https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

这是安装和设置 java、spark 和 pyspark 的完整代码:

# innstall java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# install spark (change the version number if needed)
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

# unzip the spark file to the current folder
!tar xf spark-3.0.0-bin-hadoop3.2.tgz

# set your spark folder to your system path environment. 
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"


# install findspark using pip
!pip install -q findspark

Run Code Online (Sandbox Code Playgroud)

对于 python 用户,您还应该pyspark使用以下命令进行安装。

!pip install pyspark


Ima*_*anB 6

此错误与您在代码第二行中使用的链接有关。以下代码段在 Google Colab 上对我有用。不要忘记将 spark 版本更改为最新版本,并相应地更改 SPARK-HOME 路径。您可以在此处找到最新版本:https : //downloads.apache.org/spark/

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop2.7"
import findspark
findspark.init()
Run Code Online (Sandbox Code Playgroud)


小智 0

您正在使用旧版本的链接,以下命令将起作用(新版本)

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xf spark-2.4.0-bin-hadoop2.7.tgz
!pip install -q findspark
Run Code Online (Sandbox Code Playgroud)