mat*_*ick 7 python parallel-processing generator
假设我有一个生成器,它的__next__()功能有点贵,我想尝试并行化调用。我在哪里投入平行化?
更具体一点,请考虑以下示例:
# fast, splitting a file for example
raw_blocks = (b for b in block_generator(fin))
# slow, reading blocks, checking values ...
parsed_blocks = (block_parser(b) for b in raw_blocks)
# get all parsed blocks into a data structure
data = parsedBlocksToOrderedDict(parsed_blocks)
Run Code Online (Sandbox Code Playgroud)
最基本的事情是将第二行更改为进行并行化的内容。是否有一些生成器魔法可以让一个人并行解压生成器(在第三行)?__next__()并行调用?
不可以。您必须next()按顺序调用,因为任何非平凡生成器的下一个状态都由其当前状态决定。
def gen(num):
j=0
for i in xrange(num):
j += i
yield j
Run Code Online (Sandbox Code Playgroud)
如果不知道生成值的每个点的状态,就无法并行化对上述生成器的调用。但如果你知道这一点,你就不需要运行它。
假设block_parser(b)要并行执行调用,您可以尝试使用multiprocessing.Pool:
import multiprocessing as mp
pool = mp.Pool()
raw_blocks = block_generator(fin)
parsed_blocks = pool.imap(block_parser, raw_blocks)
data = parsedBlocksToOrderedDict(parsed_blocks)
Run Code Online (Sandbox Code Playgroud)
注意:
list(parsed_blocks)完全适合内存,那么 usingpool.map可能比pool.imap.raw_blocks从和返回值block_parse
必须是因为拣选mp.Pool通过转移任务和结果mp.Queue。