我正在尝试按以下方式安装pyspark:
python setup.py install
Run Code Online (Sandbox Code Playgroud)
我收到此错误:
Could not import pypandoc - required to package PySpark
Run Code Online (Sandbox Code Playgroud)
pypandoc已经安装
有什么想法如何安装pyspark?
小智 8
我在安装pyspark之前遇到了相同的问题并解决了以下问题,请先安装pypandoc
pip install pypandoc
pip install pyspark
Run Code Online (Sandbox Code Playgroud)
小智 0
为 jupyter Notebook 安装 PySpark API 的步骤:
访问此站点https://spark.apache.org/downloads.html下载最新的 Spark。该文件将以 .tgz 格式下载。将此 tgz 文件提取到要安装 PySpark 的目录中。
解压tgz文件后,您需要下载hadoop,因为Apache Spark需要Hadoop,因此从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop ,将下载一个文件 -“winutils.exe”。将此 exe 文件复制到 Spark 的“bin/”目录中 (spark-2.2.0-bin-hadoop2.7/bin)
如果你安装了 anaconda,在 C:\Users\ 下会有 .condarc 文件,打开它,将 ssl_verify 从 true 更改为 false。这将帮助您直接从提示符安装 python 库。(如果您的网络受限)
打开 anaconda 提示符并输入“conda install findspark”来安装findspark python模块。如果您无法安装它,请访问此链接 https://github.com/minrk/findspark并下载ZIP,解压并打开anaconda提示符并转到此提取的路径并运行“python setup.py install”。
创建 4 个用户变量并将 Spark 路径添加到“PATH”系统变量后,打开 Jupyter Notebook 并运行以下代码:
import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext
from pyspark import SparkContext
sc = SparkContext("local", "First App")
sqlContext = SQLContext(sc)
Run Code Online (Sandbox Code Playgroud)
如果没有出现任何错误,则安装已成功完成。
| 归档时间: |
|
| 查看次数: |
3274 次 |
| 最近记录: |