SparkException：执行 Spark 操作时，Python 工作线程无法重新连接

Question

SparkException：执行 Spark 操作时，Python 工作线程无法重新连接

当我尝试在 pyspark 执行此命令行时

\n\n

arquivo = sc.textFile("dataset_analise_sentimento.csv")\n

Run Code Online (Sandbox Code Playgroud)\n\n

我收到以下错误消息：

\n\n

Py4JJavaError: An error occurred while calling z:\norg.apache.spark.api.python.PythonRDD.runJob.: \norg.apache.spark.SparkException: Job aborted due to stage failure: \nTask 0 in stage 0.0 failed 1 times, most recent failure:\nLost task 0.0 in stage 0.0 (TID 0, localhost, executor driver):\norg.apache.spark.SparkException: Python worker failed to connect back.\n

Run Code Online (Sandbox Code Playgroud)\n\n

我尝试了以下步骤：

\n\n

检查环境变量。
检查 Windows 10 上的 Apache Spark 安装步骤。
使用不同版本的 Apache Spark（尝试过 2.4.3 / 2.4.2 / 2.3.4）。
禁用我安装的防火墙窗口和防病毒软件。
尝试手动初始化 SparkContext sc = spark.sparkContext（在 Stackoverflow 中的这个问题上找到了可能的解决方案，\xc2\xb4t 对我不起作用）。
PYSPARK_DRIVER_PYTHON尝试更改fromjupyter的值ipython，如此链接中所述，但没有成功。

\n\n

上述步骤都不适合我，我无法\xc2\xb4t找到解决方案。

\n\n

实际上我\xc2\xb4m使用以下版本：

\n\n

Python 3.7.3、Java JDK 11.0.6、Windows 10、Apache Spark 2.3.4

\n

Answer 1

Hen*_*nco 4

我只是配置了以下变量环境，现在可以正常工作了：

\n\n

HADOOP_HOME = C:\\Hadoop
JAVA_HOME = C:\\Java\\jdk-11.0.6
PYSPARK_DRIVER_PYTHON = jupyter
PYSPARK_DRIVER_PYTHON_OPTS = notebook
PYSPARK_PYTHON = python

\n\n

实际上我\xc2\xb4m使用以下版本：

\n\n

Python 3.7.3、Java JDK 11.0.6、Windows 10、Apache Spark 2.4.3 以及将 Jupyter Notebook 与 pyspark 结合使用。

\n

归档时间：	5 年，11 月前
查看次数：	7944 次
最近记录：	4 年，2 月前