从列表的RDD创建Spark DataFrame

mgo*_*ser 14 dataframe apache-spark pyspark

我有一个rdd(我们可以称之为myrdd),其中rdd中的每个记录都是以下形式:

[('column 1',value), ('column 2',value), ('column 3',value), ... , ('column 100',value)]
Run Code Online (Sandbox Code Playgroud)

我想将它转换为pyspark中的DataFrame - 最简单的方法是什么?

dap*_*mao 32

怎么用这个toDF方法?您只需要添加字段名称.

df = rdd.toDF(['column', 'value'])
Run Code Online (Sandbox Code Playgroud)


mgo*_*ser 11

@dapangmao的答案让我得到了这个解决方案:

my_df = my_rdd.map(lambda l: Row(**dict(l))).toDF()
Run Code Online (Sandbox Code Playgroud)