如何更改并行进程数？

Question

如何更改并行进程数？

我有一个python脚本,它并行运行一个方法.

parsers = {
    'parser1': parser1.process,
    'parser2': parser2.process
}

def process((key, value)):
    parsers[key](value)

pool = Pool(4)
pool.map(process_items, items)

Run Code Online (Sandbox Code Playgroud)

process_items是我的方法,items是一个元组列表,每个元组有两个元素.该items清单有大约10万件物品.

process_items然后将根据给出的参数调用方法.我的问题可能是列表的70%,我可以运行高并行性,但另外30%只能运行1/2线程,否则将导致我的控制之外的失败.

所以在我的代码中,我有大约10个不同的解析器进程.比方说1-8我想用Pool(4)但9-10 Pool(2)运行.

优化这个的最佳方法是什么？

Answer 1

dan*_*ano 2

我认为你最好的选择是在这里使用两个池：

from multiprocessing import Pool
# import parsers here

parsers = {
    'parser1': parser1.process,
    'parser2': parser2.process,
    'parser3': parser3.process,
    'parser4': parser4.process,
    'parser5': parser5.process,
    'parser6': parser6.process,
    'parser7': parser7.process,
}

# Sets that define which items can use high parallelism,
# and which must use low
high_par = {"parser1", "parser3", "parser4", "parser6", "parser7"}
low_par = {"parser2", "parser5"}

def process_items(key, value):
    parsers[key](value)

def run_pool(func, items, num_items, check_set):
    pool = Pool(num_items)
    out = pool.map(func, (item for item in items if item[0] in check_set))
    pool.close()
    pool.join()
    return out

if __name__ == "__main__":
    items = [('parser2', x), ...] # Your list of tuples
    # Process with high parallelism
    high_results = run_pool(process_items, items, 4, high_par)
    # Process with low parallelism
    low_results = run_pool(process_items, items, 2, low_par)

Run Code Online (Sandbox Code Playgroud)

通过巧妙地使用同步原语，尝试在其中实现这一点Pool是可能的，但我认为它最终不会看起来比这干净得多。它也可能最终运行效率较低，因为有时您的池需要等待工作完成，因此它可以处理低并行度项目，即使队列中其后面有高并行度项目可用。

process_items如果您需要以与原始可迭代相同的顺序获取每个调用的结果，这会变得有点复杂，这意味着每个调用的结果都Pool需要合并，但根据您的示例，我认为这不是一个要求。如果是的话请告诉我，我会尝试相应地调整我的答案。

归档时间：	10 年，8 月前
查看次数：	66 次
最近记录：	10 年，8 月前