小编pan*_*rie的帖子

有没有办法使用带有分区的 pandas to_parquet 覆盖现有数据?

我正在使用 pandas 使用带有分区的 to_parquet 函数编写镶木地板文件。例子:

df.to_parquet('gs://bucket/path', partition_cols=['key'])
Run Code Online (Sandbox Code Playgroud)

问题是每次我运行代码时。它会在分区中添加一个新的 parquet 文件,当您读取数据时,您会在每次运行脚本时获取所有数据。本质上,数据每次都会附加。

有没有办法在每次使用 pandas 写入时覆盖数据?

python pandas parquet

6
推荐指数
1
解决办法
2715
查看次数

标签 统计

pandas ×1

parquet ×1

python ×1