并行和条件:NoneType 对象没有属性 '__dict__'

gre*_*ane 3 python python-multiprocessing

有关更多设置,请参阅此问题。我想Toy并行创建大量 class 实例。然后我想将它们写入 xml 树。

import itertools
import pandas as pd
import lxml.etree as et
import numpy as np
import sys
import multiprocessing as mp


def make_toys(df):
    l = []
    for index, row in df.iterrows():
        toys = [Toy(row) for _ in range(row['number'])]
        l += [x for x in toys if x is not None]
    return l


class Toy(object):
    def __new__(cls, *args, **kwargs):
        if np.random.uniform() <= 1:
            return super(Toy, cls).__new__(cls, *args, **kwargs)

    def __init__(self, row):
        self.id = None
        self.type = row['type']

    def set_id(self, x):
        self.id = x

    def write(self, tree):
        et.SubElement(tree, "toy", attrib={'id': str(self.id), 'type': self.type})


if __name__ == "__main__":
    table = pd.DataFrame({
        'type': ['a', 'b', 'c', 'd'],
        'number': [5, 4, 3, 10]})

    n_cores = 2
    split_df = np.array_split(table, n_cores)

    p = mp.Pool(n_cores)
    pool_results = p.map(make_toys, split_df)
    p.close()
    p.join()
    l = [a for L in pool_results for a in L]

    box = et.Element("box")
    box_file = et.ElementTree(box)

    for i, toy in itertools.izip(range(len(l)), l):
        Toy.set_id(toy, i)

    [Toy.write(x, box) for x in l]

    box_file.write(sys.stdout, pretty_print=True)
Run Code Online (Sandbox Code Playgroud)

这段代码运行得很漂亮。但是我重新定义了该__new__方法,使其只能随机实例化一个类。因此,如果我设置if np.random.uniform() < 0.5,我想创建的实例数量是我要求的一半,随机确定。这样做会返回以下错误:

Exception in thread Thread-3:
Traceback (most recent call last):
  File "/usr/lib/python2.7/threading.py", line 810, in __bootstrap_inner
    self.run()
  File "/usr/lib/python2.7/threading.py", line 763, in run
    self.__target(*self.__args, **self.__kwargs)
  File "/usr/lib/python2.7/multiprocessing/pool.py", line 380, in _handle_results
    task = get()
AttributeError: 'NoneType' object has no attribute '__dict__'
Run Code Online (Sandbox Code Playgroud)

我不知道这甚至意味着什么,或者如何避免它。如果我像在 中那样整体地执行此过程l = make_toys(table),它会在任何随机机会下运行良好。

另一种解决方案

顺便说一句,我知道这可以通过不理会__new__方法而改写make_toys()

def make_toys(df):
    l = []
    for index, row in df.iterrows():
        prob = np.random.binomial(row['number'], 0.1)
        toys = [Toy(row) for _ in range(prob)]
        l += [x for x in toys if x is not None]
    return l
Run Code Online (Sandbox Code Playgroud)

但我正在努力了解这个错误。

unu*_*tbu 6

我认为您已经发现了一个令人惊讶的“陷阱”,这是由Toy 实例None在通过多处理池的结果时变成的结果引起的Queue

multiprocessing.Pool用途Queue.Queue■从子过程传递结果返回给主进程。

根据文档

当一个对象被放入队列时,该对象被腌制,后台线程稍后将腌制的数据刷新到底层管道。

虽然实际的序列化可能会有所不同,但本质上,实例的酸洗Toy变成了这样的字节流:

In [30]: import pickle

In [31]: pickle.dumps(Toy(table.iloc[0]))
Out[31]: "ccopy_reg\n_reconstructor\np0\n(c__main__\nToy\np1\nc__builtin__\nobject\np2\nNtp3\nRp4\n(dp5\nS'type'\np6\nS'a'\np7\nsS'id'\np8\nNsb."
Run Code Online (Sandbox Code Playgroud)

请注意,在字节流中提到了对象的模块和类:__main__\nToy

类本身不是腌制的。只有对类名的引用。

当字节流在管道的另一侧被解压时,Toy.__new__被调用来实例化 的新实例Toy__dict__然后使用来自字节流的未腌制数据重新构建新对象。当新对象是 时None,它没有__dict__属性,因此会引发 AttributeError。

因此,当一个Toy实例通过 时Queue,它可能会变成None另一边。

我相信这就是为什么使用

class Toy(object):
    def __new__(cls, *args, **kwargs):
        x = np.random.uniform() <= 0.5
        if x:
            return super(Toy, cls).__new__(cls, *args, **kwargs)
        logger.info('Returning None')
Run Code Online (Sandbox Code Playgroud)

造成

AttributeError: 'NoneType' object has no attribute '__dict__'
Run Code Online (Sandbox Code Playgroud)

如果您将日志记录添加到脚本中,

import itertools
import pandas as pd
import lxml.etree as et
import numpy as np
import sys
import multiprocessing as mp
import logging
logger = mp.log_to_stderr(logging.INFO)

def make_toys(df):
    result = []
    for index, row in df.iterrows():
        toys = [Toy(row) for _ in range(row['number'])]
        result += [x for x in toys if x is not None]
    return result


class Toy(object):
    def __new__(cls, *args, **kwargs):
        x = np.random.uniform() <= 0.97
        if x:
            return super(Toy, cls).__new__(cls, *args, **kwargs)
        logger.info('Returning None')

    def __init__(self, row):
        self.id = None
        self.type = row['type']

    def set_id(self, x):
        self.id = x

    def write(self, tree):
        et.SubElement(tree, "toy", attrib={'id': str(self.id), 'type': self.type})


if __name__ == "__main__":
    table = pd.DataFrame({
        'type': ['a', 'b', 'c', 'd'],
        'number': [5, 4, 3, 10]})

    n_cores = 2
    split_df = np.array_split(table, n_cores)

    p = mp.Pool(n_cores)
    pool_results = p.map(make_toys, split_df)
    p.close()
    p.join()
    l = [a for L in pool_results for a in L]

    box = et.Element("box")
    box_file = et.ElementTree(box)

    for i, toy in itertools.izip(range(len(l)), l):
        toy.set_id(i)

    for x in l:
        x.write(box)

    box_file.write(sys.stdout, pretty_print=True)
Run Code Online (Sandbox Code Playgroud)

你会发现AttributeError只有在表单的日志消息之后才会发生

[INFO/MainProcess] Returning None
Run Code Online (Sandbox Code Playgroud)

请注意,日志消息来自 MainProcess,而不是 PoolWorker 进程之一。由于Returning None消息来自 Toy.__new__,这表明它Toy.__new__被主进程调用。这证实了 unpickling 正在调用 Toy.__new__并将 的实例Toy转换为None.


这个故事的寓意是,对于Toy要通过多处理池的队列传递Toy.__new__的实例, 必须始终返回 的实例 Toy。正如您所指出的,可以通过仅实例化所需数量的 Toys 来修复代码make_toys

def make_toys(df):
    result = []
    for index, row in df.iterrows():
        prob = np.random.binomial(row['number'], 0.1)
        result.extend([Toy(row) for _ in range(prob)])
    return result
Run Code Online (Sandbox Code Playgroud)

顺便说一句,使用Toy.write(x, box) whenx是 的实例来调用实例方法是非标准的Toy。首选方法是使用

x.write(box)
Run Code Online (Sandbox Code Playgroud)

类似地,使用toy.set_id(i)代替Toy.set_id(toy, i)