Thi*_*dim 14

尝试:

spark_df.toPandas()
Run Code Online (Sandbox Code Playgroud)

toPandas()

Returns the contents of this DataFrame as Pandas pandas.DataFrame.

This is only available if Pandas is installed and available.
Run Code Online (Sandbox Code Playgroud)

如果你想要对面:

spark_df = createDataFrame(pandas_df)
Run Code Online (Sandbox Code Playgroud)

  • 如果pandas数据帧非常大,则无法正常工作。 (2认同)
  • java堆内存不足错误。 (2认同)
  • 还请记住,Spark Dataframe使用RDD,它基本上是分布在所有节点上的分布式数据集。因此可以毫无问题地处理大数据。但是,当您将此大数据集转换为Pandas数据帧时,它很可能会用完内存,因为Pandas数据帧不像spark那样分布,并且仅使用驱动程序节点的内存,而不使用所有其他可用节点。 (2认同)