在不读取文件的情况下使用拼花文件统计信息

mos*_*evi 1 python parquet dask fastparquet pyarrow

据我了解,镶木地板文件具有列的最小/最大统计信息。我的问题是如何在不读取整个文件的情况下使用 python 读取这些统计信息?

如果有帮助,我也有_common_metadata_metadata文件。


我的具体问题是获取此文件系统中每个证券交易所分区的最大日期(每个年份分区包含多个具有日期列的镶木地板文件):

C:.
?   _common_metadata
?   _metadata
????source=NASDAQ
?   ????year=2017
?   ????year=2018
????source=London_Stock_Exchange
?   ????year=2014
?   ????year=2015
????source=Japan_Exchange_Group
?   ????year=2017
?   ????year=2018
????source=Euronext
    ????year=2017
    ????year=2018
Run Code Online (Sandbox Code Playgroud)

Uwe*_*orn 5

您可以在每个 RowGroup 的基础上提取它们pyarrow

import pyarrow.parquet as pq

pq_file = pq.ParquetFile(…)
# Get metadata for the i-th RowGroup
rg_meta = pq_file.metadata.row_group(i)
# Get the "max" statistic for the k-th column
max_of_col = rq_meta.column(col).statistics.max
Run Code Online (Sandbox Code Playgroud)