从列表的RDD创建Spark DataFrame

Question

我有一个rdd(我们可以称之为myrdd),其中rdd中的每个记录都是以下形式:

[('column 1',value), ('column 2',value), ('column 3',value), ... , ('column 100',value)]

我想将它转换为pyspark中的DataFrame - 最简单的方法是什么？

Answer 1

怎么用这个toDF方法？您只需要添加字段名称.

df = rdd.toDF(['column', 'value'])

Answer 2

@dapangmao的答案让我得到了这个解决方案:

my_df = my_rdd.map(lambda l: Row(**dict(l))).toDF()