小编ziy*_*n16的帖子

将 Spark Dataframe 中的每一行保存到不同的文件中

我使用以下结构构建了一个 spark DataFrame:

root
 |-- tickers: string (nullable = true)
 |-- name: string (nullable = true)
 |-- price: array (nullable = true)
 |    |-- element: map (containsNull = true)
 |    |    |-- key: string
 |    |    |-- value: map (valueContainsNull = true)
 |    |    |    |-- key: string
 |    |    |    |-- value: string (valueContainsNull = true)
Run Code Online (Sandbox Code Playgroud)

我想将每个对象保存price到一个单独的 JSON 文件中,并使用相应的name字符串作为文件名保存每个文件。有没有办法在 Python 环境中实现它?

我找到的最相关的解决方案是将数据帧重新分区为数据帧中“行”数的分区,并使用.write.csv()(参见/sf/answers/3492341331/)。但这不符合我将“行”保存到具有不同文件名的单独文件的需要。

给出更多的上下文。我正在使用 spark 调用 API 并并行检索数据。spark数据框中的每一“行”都是基于 的唯一值的数据查询tickers。我的过程的最后一步是分别保存每个查询结果。如果有人有更好的方法来做到这一点,也会很感激。

非常感谢!

apache-spark apache-spark-sql pyspark

1
推荐指数
1
解决办法
3278
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1