我正在处理一个大约8GB的数据集,我也在使用scikit-learn来训练各种ML模型.数据集基本上是一维的1D向量列表.
如何使数据集可用于多个python进程或如何编码数据集以便我可以使用它multiprocessing
的类?我一直在阅读ctypes
,我也一直在阅读multiprocessing
文档,但我很困惑.我只需要让数据对每个进程都可读,这样我就可以用它来训练模型.
我需要将共享multiprocessing
变量作为ctypes吗?
如何将数据集表示为ctypes
?
python ctypes python-2.7 scikit-learn python-multiprocessing