无法安装pyspark

use*_*980 2 python pyspark

我正在尝试按以下方式安装pyspark:

python setup.py install
Run Code Online (Sandbox Code Playgroud)

我收到此错误:

Could not import pypandoc - required to package PySpark
Run Code Online (Sandbox Code Playgroud)

pypandoc已经安装

有什么想法如何安装pyspark?

小智 8

我在安装pyspark之前遇到了相同的问题并解决了以下问题,请先安装pypandoc

pip install pypandoc
pip install pyspark
Run Code Online (Sandbox Code Playgroud)


小智 5

尝试使用 python3 安装 pypandoc pip3 install pypandoc


小智 0

为 jupyter Notebook 安装 PySpark API 的步骤:

  1. 访问此站点https://spark.apache.org/downloads.html下载最新的 Spark。该文件将以 .tgz 格式下载。将此 tgz 文件提取到要安装 PySpark 的目录中。

  2. 解压tgz文件后,您需要下载hadoop,因为Apache Spark需要Hadoop,因此从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop ,将下载一个文件 -“winutils.exe”。将此 exe 文件复制到 Spark 的“bin/”目录中 (spark-2.2.0-bin-hadoop2.7/bin)

  3. 如果你安装了 anaconda,在 C:\Users\ 下会有 .condarc 文件,打开它,将 ssl_verify 从 true 更改为 false。这将帮助您直接从提示符安装 python 库。(如果您的网络受限)

  4. 打开 anaconda 提示符并输入“conda install findspark”来安装findspark python模块。如果您无法安装它,请访问此链接 https://github.com/minrk/findspark并下载ZIP,解压并打开anaconda提示符并转到此提取的路径并运行“python setup.py install”。

  5. 打开此电脑>>属性>>高级系统设置(您需要具有管理员访问权限)。单击环境变量,然后添加新的用户环境变量。 要添加的环境变量

  6. 创建 4 个用户变量并将 Spark 路径添加到“PATH”系统变量后,打开 Jupyter Notebook 并运行以下代码:

    import findspark
    findspark.init()
    import pyspark
    from pyspark.sql import SQLContext
    from pyspark import SparkContext    
    
    sc = SparkContext("local", "First App")
    sqlContext = SQLContext(sc)
    
    Run Code Online (Sandbox Code Playgroud)

    如果没有出现任何错误,则安装已成功完成。