Pyarrow 数据集读取特定列和特定行

Pun*_*cky 5 python parquet pyarrow

有没有办法使用 pyarrow parquet 数据集读取特定列,并在可能的情况下过滤数据,而不是将整个文件读入数据帧?

Acu*_*nus 6

截至目前pyarrow==2.0.0,这至少是可能的pyarrow.parquet.ParquetDataset

读取特定的列,其readread_pandas方法都有一个columns选项。您也可以使用 来执行此操作pandas.read_parquet

读取特定行,其__init__方法有一个filters选项。