从 pandas 转移到 dask 以利用所有本地 cpu 内核

Geo*_*ler 6 python cpu multicore pandas dask

最近我偶然发现了http://dask.pydata.org/en/latest/ 因为我有一些只能在单核上运行的 Pandas 代码,我想知道如何利用我的其他 CPU 核。dask 可以很好地使用所有(本地)CPU 内核吗?如果是,它与熊猫的兼容性如何?

我可以对 Pandas 使用多个 CPU 吗?到目前为止,我阅读了有关发布 GIL 的信息,但这一切似乎都相当复杂。

Joh*_*nck 5

dask 可以很好地使用所有(本地)CPU 内核吗?

是的。

它与熊猫的兼容性如何?

相当兼容。不是 100%。如果需要,您可以将 Pandas 和 NumPy 甚至纯 Python 的东西与 Dask 混合使用。

我可以对 Pandas 使用多个 CPU 吗?

你可以。最简单的方法是单独使用multiprocessing和保存您的数据——如果可以有效地这样做,让每个作业独立地从磁盘读取并写入磁盘。mpi4py如果您的多计算机环境有专业管理员,那么使用这种方法是最有用的。