PyArrow：增量使用 ParquetWriter，无需将整个数据集保留在内存中（大于内存 parquet 文件）

Question

PyArrow：增量使用 ParquetWriter，无需将整个数据集保留在内存中（大于内存 parquet 文件）

Nik*_*s B 5 python parquet apache-arrow pyarrow

我正在尝试将一个大的镶木地板文件写入磁盘（大于内存）。我天真地认为我可以聪明地使用 ParquetWriter 和 write_table 增量写入文件，如下所示（POC）：

import pyarrow as pa
import pyarrow.parquet as pq
import pickle
import time

arrow_schema = pickle.load(open('schema.pickle', 'rb'))
rows_dataframe = pickle.load(open('rows.pickle', 'rb'))

output_file = 'test.parq'

with pq.ParquetWriter(
                output_file,
                arrow_schema,
                compression='snappy',
                allow_truncated_timestamps=True,
                version='2.0',  # Highest available schema
                data_page_version='2.0',  # Highest available schema
        ) as writer:
            for rows_dataframe in function_that_yields_data()
                writer.write_table(
                    pa.Table.from_pydict(
                            rows_dataframe,
                            arrow_schema
                    )
                )

Run Code Online (Sandbox Code Playgroud)

但即使我生成了块（比如我的例子中的 10000 行）并使用write_table它仍然将整个数据集保留在内存中。

事实证明，ParquetWriter 将整个数据集保留在内存中，同时增量写入磁盘。

是否有办法强制 ParquetWriter 不将整个数据集保留在内存中，或者出于充分的原因根本不可能？

Answer 1

Mic*_*eld 4

根据Arrow 错误报告的分析，这可能是由元数据收集引起的，这些元数据只能在文件关闭时刷新。

归档时间：	5 年，4 月前
查看次数：	2056 次
最近记录：	5 年，3 月前