我使用以下结构构建了一个 spark DataFrame:
root
|-- tickers: string (nullable = true)
|-- name: string (nullable = true)
|-- price: array (nullable = true)
| |-- element: map (containsNull = true)
| | |-- key: string
| | |-- value: map (valueContainsNull = true)
| | | |-- key: string
| | | |-- value: string (valueContainsNull = true)
Run Code Online (Sandbox Code Playgroud)
我想将每个对象保存price到一个单独的 JSON 文件中,并使用相应的name字符串作为文件名保存每个文件。有没有办法在 Python 环境中实现它?
我找到的最相关的解决方案是将数据帧重新分区为数据帧中“行”数的分区,并使用.write.csv()(参见/sf/answers/3492341331/)。但这不符合我将“行”保存到具有不同文件名的单独文件的需要。
给出更多的上下文。我正在使用 spark 调用 API 并并行检索数据。spark数据框中的每一“行”都是基于 的唯一值的数据查询tickers。我的过程的最后一步是分别保存每个查询结果。如果有人有更好的方法来做到这一点,也会很感激。
非常感谢!