mgo*_*ser 14 dataframe apache-spark pyspark
我有一个rdd(我们可以称之为myrdd),其中rdd中的每个记录都是以下形式:
[('column 1',value), ('column 2',value), ('column 3',value), ... , ('column 100',value)]
Run Code Online (Sandbox Code Playgroud)
我想将它转换为pyspark中的DataFrame - 最简单的方法是什么?
dap*_*mao 32
怎么用这个toDF方法?您只需要添加字段名称.
df = rdd.toDF(['column', 'value'])
Run Code Online (Sandbox Code Playgroud)
mgo*_*ser 11
@dapangmao的答案让我得到了这个解决方案:
my_df = my_rdd.map(lambda l: Row(**dict(l))).toDF()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
45493 次 |
| 最近记录: |