打开 3.7GB parquet 文件立即被杀死

rap*_*l75 3 python python-3.7 pyarrow

我有 Python 3.7.3,正在使用 pyarrow 2.0.0 并尝试打开 3.7GB parquet 文件。python 脚本立即终止,我唯一看到的是“Killed”。由于我没什么可继续的,我不确定为什么它被“杀死”。尝试打开它的计算机有 16GB RAM,所以看起来应该有足够的 RAM 来处理它?有没有办法让我获得更多关于它被“杀死”的原因的信息?

Pac*_*ace 5

“Killed”消息来自 Linux OOM 杀手。您可以通过检查日志来确认此行为。

Parquet 文件经过压缩,因此 3.7GB Parquet 文件加载到内存后可以包含超过 16GB 的数据。

您需要逐段阅读该文件。如果文件有行组,您可以一次读取一个行组。如果文件没有行组(或者您不想以这种方式读取它),您可以选择更少的列来加载。