我正在使用 pandas 使用带有分区的 to_parquet 函数编写镶木地板文件。例子:
df.to_parquet('gs://bucket/path', partition_cols=['key'])
问题是每次我运行代码时。它会在分区中添加一个新的 parquet 文件,当您读取数据时,您会在每次运行脚本时获取所有数据。本质上,数据每次都会附加。
有没有办法在每次使用 pandas 写入时覆盖数据?
python pandas parquet
pandas ×1
parquet ×1
python ×1