如何使用Pyspark将数据框保存到泡菜文件

adi*_*nco 2 pickle pyspark

我必须将数据框保存到Pickle文件中,但是会返回错误

df.saveAsPickleFile(path)
Run Code Online (Sandbox Code Playgroud)

AttributeError:“ Dataframe”对象没有属性“ saveAsPickleFile”

Omr*_*374 7

saveAsPickleFileRDD不是数据帧的方法。

请参阅以下文档:http : //spark.apache.org/docs/latest/api/python/pyspark.html?highlight=pickle

因此,您可以致电:

df.rdd.saveAsPickleFile(filename)
Run Code Online (Sandbox Code Playgroud)

要从文件加载它,请运行:

pickleRdd = sc.pickleFile(filename).collect()
df2 = spark.createDataFrame(pickleRdd)
Run Code Online (Sandbox Code Playgroud)

  • 是和否。是的,rdd步骤是必要的,因为它是一个rdd方法。不,这不是转换。rdd 是位于 dataFrame 下面一个抽象层的类型。所以“转换”没有成本 (2认同)