小编Naz*_*Naz的帖子

如何在pyspark中使用多行选项将数据帧保存到json文件中

在 Pyspark 中,我想将数据帧保存为 json 文件,但格式如下

说这是我的数据框

>>> rdd1.show()
+----------+-----+
|        f1|   f2|
+----------+-----+
|AAAAAAAAAA|99999|
| BBBBBBBBB|99999|
| CCCCCCCCC|99999|
+----------+-----+
Run Code Online (Sandbox Code Playgroud)

如果我将上面的数据框保存为 json 文件,它会给出如下所示的输出

>>>rdd1.coalesce(1).write.json("file:///test_directory/sample4")
{"f1":"AAAAAAAAAA","f2":"99999"}
{"f1":"BBBBBBBBB","f2":"99999"}
{"f1":"CCCCCCCCC","f2":"99999"}
Run Code Online (Sandbox Code Playgroud)

但我想要像下面这样的

[{"f1":"AAAAAAAAAA","f2":"99999"},{"f1":"BBBBBBBBB","f2":"99999"},{"f1":"CCCCCCCCC","f2":"99999"}]
Run Code Online (Sandbox Code Playgroud)

我尝试过option("multiLine", "true") 和 lineSep=","似乎都不起作用,这些选项仅适用于读取而不是写入。请为这个问题提出一个解决方案

json pyspark

3
推荐指数
1
解决办法
2714
查看次数

标签 统计

json ×1

pyspark ×1