Pra*_*har 5 hadoop apache-spark pyspark google-colaboratory
在 Google Colab 上安装 Spark 时出现错误。它说
tar:spark-2.2.1-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录 tar:错误不可恢复:现在退出。
这些是我的步骤
问题是由于您用于下载 spark 的下载链接造成的:
http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
要毫无问题地下载 spark,您应该从他们的存档站点 ( https://archive.apache.org/dist/spark)下载它:
例如,他们档案中的以下下载链接工作正常
https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
这是安装和设置 java、spark 和 pyspark 的完整代码:
# innstall java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
# install spark (change the version number if needed)
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
# unzip the spark file to the current folder
!tar xf spark-3.0.0-bin-hadoop3.2.tgz
# set your spark folder to your system path environment.
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"
# install findspark using pip
!pip install -q findspark
Run Code Online (Sandbox Code Playgroud)
对于 python 用户,您还应该pyspark使用以下命令进行安装。
!pip install pyspark
此错误与您在代码第二行中使用的链接有关。以下代码段在 Google Colab 上对我有用。不要忘记将 spark 版本更改为最新版本,并相应地更改 SPARK-HOME 路径。您可以在此处找到最新版本:https : //downloads.apache.org/spark/
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop2.7"
import findspark
findspark.init()
Run Code Online (Sandbox Code Playgroud)
小智 0
您正在使用旧版本的链接,以下命令将起作用(新版本)
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xf spark-2.4.0-bin-hadoop2.7.tgz
!pip install -q findspark
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
7781 次 |
| 最近记录: |