如何读取扩展名为 .snappy.parquet 的文件

Question

如何读取扩展名为 .snappy.parquet 的文件

我有扩展名为 .snappy.parquet 的文件，需要将其读入 Jupyter 笔记本，并将其转换为 pandas 数据帧。

import numpy
import pyarrow.parquet as pq

filename = "part-00000-tid-2430471264870034304-5b82f32f-de64-40fb-86c0-fb7df2558985-1598426-1-c000.snappy.parquet" 
df = pq.read_table(filename).to_pandas()

Run Code Online (Sandbox Code Playgroud)

错误是：

ArrowNotImplementedError：不支持具有结构的列表

Answer 1

Uwe*_*orn 4

List[Struct[..]]截至 2019 年 11 月 30 日， Apache Arrow 不支持类型列（即列表和结构的混合嵌套）。正如另一个答案中提到的，相关问题是https://issues.apache.org/jira/browse/ARROW-1644。

columns要继续读取此文件，您可以通过向提供参数来读取所有受支持类型的列pyarrow.parquet.read_table。要找出哪些列具有复杂的嵌套类型，请使用 . 查看文件的架构pyarrow.parquet.ParquetFile(filename).schema。

归档时间：	6 年前
查看次数：	15653 次
最近记录：	3 年，3 月前