如何在python中使用生成器循环大型镶木地板文件?

Alp*_*pha 4 python generator dataframe pandas parquet

是否可以使用生成器打开镶木地板文件并逐行迭代?这是为了避免将整个镶木地板文件加载到内存中。

文件的内容是pandas DataFrame。

小智 7

您不能按行迭代,因为它不是存储方式。您可以按如下方式遍历行组:

from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
for df in pf.iter_row_groups():
    process sub-data-frame df
Run Code Online (Sandbox Code Playgroud)