小编dat*_* en的帖子

Databricks：从 pandas 创建 Spark 数据框架时出现问题

我有一个 pandas 数据框，我想将其转换为 Spark 数据框。通常，我使用下面的代码从 pandas 创建 Spark 数据框，但突然我开始收到以下错误，我知道 pandas 已删除 iteritems() 但我当前的 pandas 版本是 2.0.0 并且我尝试安装较小的版本并尝试创建 Spark df 但我仍然遇到相同的错误。该错误在 Spark 函数内部调用。解决这个问题的办法是什么？我应该安装哪个 pandas 版本才能创建 Spark df. 我还尝试更改集群数据块的运行时并尝试重新运行，但仍然遇到相同的错误。

import pandas as pd
spark.createDataFrame(pd.DataFrame({'i':[1,2,3],'j':[1,2,3]}))

error:-
UserWarning: createDataFrame attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  'DataFrame' object has no attribute 'iteritems'
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.
  warn(msg)
AttributeError: 'DataFrame' object has no attribute 'iteritems'

Run Code Online (Sandbox Code Playgroud)

python pandas apache-spark pyspark databricks

dat*_* en

2023 09-28

26
推荐指数

3
解决办法

2万
查看次数