无法安装pyspark

Question

无法安装pyspark

我正在尝试按以下方式安装pyspark：

python setup.py install

Run Code Online (Sandbox Code Playgroud)

我收到此错误：

Could not import pypandoc - required to package PySpark

Run Code Online (Sandbox Code Playgroud)

pypandoc已经安装

有什么想法如何安装pyspark？

Answer 1

小智 8

我在安装pyspark之前遇到了相同的问题并解决了以下问题，请先安装pypandoc

pip install pypandoc
pip install pyspark

Run Code Online (Sandbox Code Playgroud)

Answer 2

小智 5

尝试使用 python3 安装 pypandoc pip3 install pypandoc。

Answer 3

小智 0

为 jupyter Notebook 安装 PySpark API 的步骤：

访问此站点https://spark.apache.org/downloads.html下载最新的 Spark。该文件将以 .tgz 格式下载。将此 tgz 文件提取到要安装 PySpark 的目录中。
解压tgz文件后，您需要下载hadoop，因为Apache Spark需要Hadoop，因此从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop ，将下载一个文件 -“winutils.exe”。将此 exe 文件复制到 Spark 的“bin/”目录中 (spark-2.2.0-bin-hadoop2.7/bin)
如果你安装了 anaconda，在 C:\Users\ 下会有 .condarc 文件，打开它，将 ssl_verify 从 true 更改为 false。这将帮助您直接从提示符安装 python 库。（如果您的网络受限）
打开 anaconda 提示符并输入“conda install findspark”来安装findspark python模块。如果您无法安装它，请访问此链接 https://github.com/minrk/findspark并下载ZIP，解压并打开anaconda提示符并转到此提取的路径并运行“python setup.py install”。
打开此电脑>>属性>>高级系统设置（您需要具有管理员访问权限）。单击环境变量，然后添加新的用户环境变量。
创建 4 个用户变量并将 Spark 路径添加到“PATH”系统变量后，打开 Jupyter Notebook 并运行以下代码：
```
import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext
from pyspark import SparkContext    

sc = SparkContext("local", "First App")
sqlContext = SQLContext(sc)
```
Run Code Online (Sandbox Code Playgroud)
如果没有出现任何错误，则安装已成功完成。

归档时间：	7 年，7 月前
查看次数：	3274 次
最近记录：	6 年，3 月前