San*_*dro 5 python large-data-volumes multiprocessing
我试图使用python来获得一些可以使用http://docs.python.org/library/multiprocessing高度并行化的任务的性能.
在查看他们的库时,他们会说使用块大小进行很长时间的迭代.现在,我的iterable并不长,它包含的一个词是巨大的:~100000个条目,其中元组为键,numpy数组为值.
如何设置chunksize来处理这个问题以及如何快速传输这些数据?
谢谢.
同时在多个工作人员中处理这个单一大项目的唯一方法是将其拆分。multiprocessing它的工作原理是将工作划分为多个单元,但您可以提供给它的最小单元是一个对象——它不知道如何以合理的方式分割单个对象。相反,你必须自己做。不要发送要处理的听写,而是将这些听写分成较小的工作单元,然后将其发送出去。如果因为所有数据都是相互依赖的而无法拆分字典,那么您也无法真正拆分工作。