python 生成器:并行解包整个生成器

mat*_*ick 7 python parallel-processing generator

假设我有一个生成器,它的__next__()功能有点贵,我想尝试并行化调用。我在哪里投入平行化?

更具体一点,请考虑以下示例:

# fast, splitting a file for example
raw_blocks = (b for b in block_generator(fin))
# slow, reading blocks, checking values ...
parsed_blocks = (block_parser(b) for b in raw_blocks)
# get all parsed blocks into a data structure
data = parsedBlocksToOrderedDict(parsed_blocks)
Run Code Online (Sandbox Code Playgroud)

最基本的事情是将第二行更改为进行并行化的内容。是否有一些生成器魔法可以让一个人并行解压生成器(在第三行)?__next__()并行调用?

kin*_*all 6

不可以。您必须next()按顺序调用,因为任何非平凡生成器的下一个状态都由其当前状态决定。

def gen(num):
    j=0
    for i in xrange(num):
        j += i
        yield j
Run Code Online (Sandbox Code Playgroud)

如果不知道生成值的每个点的状态,就无法并行化对上述生成器的调用。但如果你知道这一点,你就不需要运行它。


unu*_*tbu 6

假设block_parser(b)要并行执行调用,您可以尝试使用multiprocessing.Pool

import multiprocessing as mp

pool = mp.Pool()

raw_blocks = block_generator(fin)
parsed_blocks = pool.imap(block_parser, raw_blocks)
data = parsedBlocksToOrderedDict(parsed_blocks)
Run Code Online (Sandbox Code Playgroud)

注意:

  • 如果您希望它list(parsed_blocks)完全适合内存,那么 usingpool.map可能比pool.imap.
  • 在该项目raw_blocks从和返回值block_parse 必须是因为拣选mp.Pool通过转移任务和结果mp.Queue