SparkException:执行 Spark 操作时,Python 工作线程无法重新连接

Hen*_*nco 5 python apache-spark pyspark

当我尝试在 pyspark 执行此命令行时

\n\n
arquivo = sc.textFile("dataset_analise_sentimento.csv")\n
Run Code Online (Sandbox Code Playgroud)\n\n

我收到以下错误消息:

\n\n
Py4JJavaError: An error occurred while calling z:\norg.apache.spark.api.python.PythonRDD.runJob.: \norg.apache.spark.SparkException: Job aborted due to stage failure: \nTask 0 in stage 0.0 failed 1 times, most recent failure:\nLost task 0.0 in stage 0.0 (TID 0, localhost, executor driver):\norg.apache.spark.SparkException: Python worker failed to connect back.\n
Run Code Online (Sandbox Code Playgroud)\n\n

我尝试了以下步骤:

\n\n
    \n
  • 检查环境变量。
  • \n
  • 检查 Windows 10 上的 Apache Spark 安装步骤。
  • \n
  • 使用不同版本的 Apache Spark(尝试过 2.4.3 / 2.4.2 / 2.3.4)。
  • \n
  • 禁用我安装的防火墙窗口和防病毒软件。
  • \n
  • 尝试手动初始化 SparkContext sc = spark.sparkContext(在 Stackoverflow 中的这个问题上找到了可能的解决方案,\xc2\xb4t 对我不起作用)。
  • \n
  • PYSPARK_DRIVER_PYTHON尝试更改fromjupyter的值ipython,如此链接中所述,但没有成功。
  • \n
\n\n

上述步骤都不适合我,我无法\xc2\xb4t找到解决方案。

\n\n

实际上我\xc2\xb4m使用以下版本:

\n\n

Python 3.7.3、Java JDK 11.0.6、Windows 10、Apache Spark 2.3.4

\n

Hen*_*nco 4

我只是配置了以下变量环境,现在可以正常工作了:

\n\n
    \n
  • HADOOP_HOME = C:\\Hadoop
  • \n
  • JAVA_HOME = C:\\Java\\jdk-11.0.6
  • \n
  • PYSPARK_DRIVER_PYTHON = jupyter
  • \n
  • PYSPARK_DRIVER_PYTHON_OPTS = notebook
  • \n
  • PYSPARK_PYTHON = python
  • \n
\n\n

实际上我\xc2\xb4m使用以下版本:

\n\n

Python 3.7.3、Java JDK 11.0.6、Windows 10、Apache Spark 2.4.3 以及将 Jupyter Notebook 与 pyspark 结合使用。

\n