小编rol*_*anx的帖子

从 Pandas DataFrame 创建 Spark DataFrame

我正在尝试从一个简单的 Pandas DataFrame 构建一个 Spark DataFrame。这是我遵循的步骤。

import pandas as pd
pandas_df = pd.DataFrame({"Letters":["X", "Y", "Z"]})
spark_df = sqlContext.createDataFrame(pandas_df)
spark_df.printSchema()

Run Code Online (Sandbox Code Playgroud)

到目前为止，一切正常。输出是：

root
|-- 字母：字符串（可为空 = 真）

当我尝试打印 DataFrame 时出现问题：

spark_df.show()

Run Code Online (Sandbox Code Playgroud)

这是结果：

调用 o158.collectToPython 时出错。：org.apache.spark.SparkException：由于阶段失败而中止作业：阶段 5.0 中的任务 0 失败 1 次，最近失败：阶段 5.0 中丢失任务 0.0（TID 5、本地主机、执行程序驱动程序）：org.apache.spark .SparkException:
Error from python worker:
Error execution Jupyter command 'pyspark.daemon': [Errno 2] 没有这样的文件或目录 PYTHONPATH 是：
/home/roldanx/soft/spark-2.4.0-bin-hadoop2.7/python/lib/pyspark.zip:/home/roldanx/soft/spark-2.4.0-bin-hadoop2.7/python/lib/ py4j-0.10.7-src.zip:/home/roldanx/soft/spark-2.4.0-bin-hadoop2.7/jars/spark-core_2.11-2.4.0.jar:/home/roldanx/soft/ spark-2.4.0-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip:/home/roldanx/soft/spark-2.4.0-bin-hadoop2.7/python/: org. apache.spark.SparkException：pyspark.daemon 的标准输出中没有端口号

这些是我的 Spark 规格：

SparkSession - 蜂巢

火花上下文

星火用户界面

版本：v2.4.0

大师：本地[*]

应用名称：PySparkShell

这是我的 venv：

导出 PYSPARK_PYTHON=jupyter

导出 …

python pandas apache-spark-sql pyspark

rol*_*anx