Chi*_*ode 5 pandas snappy parquet
我有扩展名为 .snappy.parquet 的文件,需要将其读入 Jupyter 笔记本,并将其转换为 pandas 数据帧。
import numpy
import pyarrow.parquet as pq
filename = "part-00000-tid-2430471264870034304-5b82f32f-de64-40fb-86c0-fb7df2558985-1598426-1-c000.snappy.parquet" 
df = pq.read_table(filename).to_pandas()
错误是:
ArrowNotImplementedError:不支持具有结构的列表
List[Struct[..]]截至 2019 年 11 月 30 日, Apache Arrow 不支持类型列(即列表和结构的混合嵌套)。正如另一个答案中提到的,相关问题是https://issues.apache.org/jira/browse/ARROW-1644。
columns要继续读取此文件,您可以通过向 提供参数来读取所有受支持类型的列pyarrow.parquet.read_table。要找出哪些列具有复杂的嵌套类型,请使用 . 查看文件的架构pyarrow.parquet.ParquetFile(filename).schema。
| 归档时间: | 
 | 
| 查看次数: | 15653 次 | 
| 最近记录: |