sha*_*ker 5 python python-3.x pandas joblib numpy-memmap
Joblib 具有通过自动内存映射数组来跨进程共享 Numpy 数组的功能。然而,这利用了 Numpy 的特定功能。Pandas 确实在底层使用了 Numpy,但除非您的列都具有相同的数据类型,否则您无法真正将 DataFrame 序列化为单个 Numpy 数组。
缓存 DataFrame 以在 Joblib 中重用的“正确”方法是什么?
我最好的猜测是分别对每一列进行内存映射,然后在循环内重建数据帧(并祈祷 Pandas 不会复制数据)。但这似乎是一个相当密集的过程。
我知道独立的 Memory 类,但不清楚这是否有帮助。
| 归档时间: |
|
| 查看次数: |
646 次 |
| 最近记录: |