小编pan*_*rie的帖子

我正在使用 pandas 使用带有分区的 to_parquet 函数编写镶木地板文件。例子：

df.to_parquet('gs://bucket/path', partition_cols=['key'])

问题是每次我运行代码时。它会在分区中添加一个新的 parquet 文件，当您读取数据时，您会在每次运行脚本时获取所有数据。本质上，数据每次都会附加。

有没有办法在每次使用 pandas 写入时覆盖数据？

6
推荐指数

1
解决办法

2715
查看次数

小编pan_rie的帖子