流式镶木地板文件 python 和仅下采样

Question

流式镶木地板文件 python 和仅下采样

Sjo*_*eph 5 python-3.x parquet fastparquet pyarrow

我有镶木地板格式的数据，它太大而无法放入内存（6 GB）。我正在寻找一种使用 Python 3.6 读取和处理文件的方法。有没有办法流式传输文件、下采样并保存到dataframe? 最终，我想要使用dataframe格式的数据。

在不使用 spark 框架的情况下尝试执行此操作是否错误？

我曾尝试使用pyarrow，fastparquet但在尝试读取整个文件时出现内存错误。任何提示或建议将不胜感激！

Answer 1

Wes*_*ney 3

Spark 无疑是完成这项任务的可行选择。

pyarrow我们计划在今年添加流式读取逻辑（2019 年，请参阅https://issues.apache.org/jira/browse/ARROW-3771和相关问题）。同时，我建议一次读取一个行组，以减轻内存使用问题。你可以用pyarrow.parquet.ParquetFile它的read_row_group方法来做到这一点

归档时间：	7 年，4 月前
查看次数：	2829 次
最近记录：	5 年，2 月前