如何读取扩展名为 .snappy.parquet 的文件

Chi*_*ode 5 pandas snappy parquet

我有扩展名为 .snappy.parquet 的文件,需要将其读入 Jupyter 笔记本,并将其转换为 pandas 数据帧。

import numpy
import pyarrow.parquet as pq

filename = "part-00000-tid-2430471264870034304-5b82f32f-de64-40fb-86c0-fb7df2558985-1598426-1-c000.snappy.parquet" 
df = pq.read_table(filename).to_pandas()
Run Code Online (Sandbox Code Playgroud)

错误是:

ArrowNotImplementedError:不支持具有结构的列表

Uwe*_*orn 4

List[Struct[..]]截至 2019 年 11 月 30 日, Apache Arrow 不支持类型列(即列表和结构的混合嵌套)。正如另一个答案中提到的,相关问题是https://issues.apache.org/jira/browse/ARROW-1644

columns要继续读取此文件,您可以通过向 提供参数来读取所有受支持类型的列pyarrow.parquet.read_table。要找出哪些列具有复杂的嵌套类型,请使用 . 查看文件的架构pyarrow.parquet.ParquetFile(filename).schema