小编ziy*_*n16的帖子

将 Spark Dataframe 中的每一行保存到不同的文件中

我使用以下结构构建了一个 spark DataFrame：

root
 |-- tickers: string (nullable = true)
 |-- name: string (nullable = true)
 |-- price: array (nullable = true)
 |    |-- element: map (containsNull = true)
 |    |    |-- key: string
 |    |    |-- value: map (valueContainsNull = true)
 |    |    |    |-- key: string
 |    |    |    |-- value: string (valueContainsNull = true)

Run Code Online (Sandbox Code Playgroud)

我想将每个对象保存price到一个单独的 JSON 文件中，并使用相应的name字符串作为文件名保存每个文件。有没有办法在 Python 环境中实现它？

我找到的最相关的解决方案是将数据帧重新分区为数据帧中“行”数的分区，并使用.write.csv()（参见/sf/answers/3492341331/）。但这不符合我将“行”保存到具有不同文件名的单独文件的需要。

给出更多的上下文。我正在使用 spark 调用 API 并并行检索数据。spark数据框中的每一“行”都是基于的唯一值的数据查询tickers。我的过程的最后一步是分别保存每个查询结果。如果有人有更好的方法来做到这一点，也会很感激。

非常感谢！

apache-spark apache-spark-sql pyspark

ziy*_*n16

2018 08-01

1
推荐指数

1
解决办法

3278
查看次数