小编Ita*_*itt的帖子

UPSERT 拼花 Pyspark

我在 s3 中有带有以下分区的镶木地板文件:年/月/日期/some_id 使用 Spark (PySpark),我想在过去14 天每天都使用 UPSERT - 我想替换 s3 中的现有数据(一个每个分区的镶木地板文件),但不删除 14 天之前的天数。我尝试了两种保存模式: 追加- 不好,因为它只是添加了另一个文件。 覆盖- 删除过去的数据和其他分区的数据。

有什么方法或最佳实践可以克服这个问题吗?我应该在每次运行中读取 s3 中的所有数据,然后再写回吗?也许重命名文件以便append将替换 s3 中的当前文件?

非常感谢!

etl amazon-s3 parquet pyspark

4
推荐指数
1
解决办法
2229
查看次数

标签 统计

amazon-s3 ×1

etl ×1

parquet ×1

pyspark ×1