mos*_*evi 1 python parquet dask fastparquet pyarrow
据我了解,镶木地板文件具有列的最小/最大统计信息。我的问题是如何在不读取整个文件的情况下使用 python 读取这些统计信息?
如果有帮助,我也有_common_metadata和_metadata文件。
我的具体问题是获取此文件系统中每个证券交易所分区的最大日期(每个年份分区包含多个具有日期列的镶木地板文件):
C:.
? _common_metadata
? _metadata
????source=NASDAQ
? ????year=2017
? ????year=2018
????source=London_Stock_Exchange
? ????year=2014
? ????year=2015
????source=Japan_Exchange_Group
? ????year=2017
? ????year=2018
????source=Euronext
????year=2017
????year=2018
Run Code Online (Sandbox Code Playgroud)
您可以在每个 RowGroup 的基础上提取它们pyarrow:
import pyarrow.parquet as pq
pq_file = pq.ParquetFile(…)
# Get metadata for the i-th RowGroup
rg_meta = pq_file.metadata.row_group(i)
# Get the "max" statistic for the k-th column
max_of_col = rq_meta.column(col).statistics.max
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1069 次 |
| 最近记录: |