如何处理尚未准备好使用的`pickle.load`调用`__setitem__`?

max*_*max 5 python pickle python-3.x

我试图实现一个(原型,而不是生产)版本的持久字典,它使用磁盘上的 pickle 作为持久存储。然而,pickle.load调用是__setitem__为了它自己的目的,而且这是(当然)覆盖以确保对字典的更改传播回持久存储的方法——因此它调用pickle.dump. 当然,调用pickle.dump是不行的,因为每个项目都是在 unpickling 期间设置的。

除了蛮力(如下)之外,有没有办法解决这个问题?我尝试阅读Pickling Class Instances以寻找使用特殊方法的解决方案,但没有找到。

下面的代码监控 unpickling 是否正在进行,并pickle.dump在这种情况下跳过;虽然它工作正常,但感觉很糟糕。

import os, pickle

class PersistentDict(dict):
    def __new__(cls, *args, **kwargs):
        if not args: # when unpickling
            obj = dict.__new__(cls)
            obj.uninitialized = True
            return obj
        path, *args = args
        if os.path.exists(path):
            obj = pickle.load(open(path, 'rb'))
            del obj.uninitialized
            return obj
        else:
            obj = dict.__new__(cls, *args, **kwargs)
            obj.path = path
            obj.dump()
            return obj

    def __init__(self, *args, **kwargs):
        pass

    def __setitem__(self, key, value):
        super().__setitem__(key, value)
        self.dump()

    def __delitem__(self, key):
        super().__delitem__(key)
        self.dump()

    def dump(self):
        if not hasattr(self, 'uninitialized'):
            pickle.dump(self, open(self.path, 'wb'))

    def clear(self):
        os.remove(self.path)

pd = PersistentDict('abc')
assert pd == {}
pd[1] = 2
assert pd == {1: 2}
pd[2] = 4
assert pd == {1: 2, 2: 4}
del pd[1]
assert pd == {2: 4}
xd = PersistentDict('abc')
assert xd == {2: 4}
xd[3] = 6
assert xd == {2: 4, 3: 6}
yd = PersistentDict('abc')
assert yd == {2: 4, 3: 6}
yd.clear()
Run Code Online (Sandbox Code Playgroud)

jsb*_*eno 4

dict当尝试获得奇特的字典实现时,不建议直接继承。一方面,Python 的 ABI 在 dict 类上采取了一些快捷方式,最终可能会跳过对某些 dunder 方法的一些调用 - 而且,正如您在 pikcling 和 unpickling 时可以看到的那样 - 字典和它的直接子类将以与普通方式不同的方式处理对象(其__dict__属性已腌制,而不是使用__setitem__.

因此,一方面,从继承开始collections.UserDict——这是一种不同的实现,dict它确保所有数据访问都是通过适当的 Python 端调用 dunder 特殊方法来完成的。您甚至可能希望将其实现为 - 的实现collections.abc.MutableMapping,以确保您必须在代码中实现最少数量的方法,以使您的类像真正的字典一样工作。

第二件事:Pickle 协议默认会做“它的事情”——在映射类中(我没有检查过,但显然是),腌制(键,值)对并调用__setitem__每个 unpicling 。但是酸洗行为是完全可定制的——正如您在文档中看到的那样——您可以简单地在类上实现显式__getstate__方法__setstate__,以完全控制酸洗/取消酸洗代码。

使用 MutableMapping 并将字典内容存储在关联的内部字典中的示例:

from collections.abc import MutableMapping

class SpecialDict(MutableMapping):
    def __init__(self, path, **kwargs):
        self.path = path
        self.content = dict(**kwargs)
        self.dump()
    def __getitem__(self, key):
        return self.content[key]

    def __setitem__(self, key, value):
        self.content[key] = value
        self.dump()

    def __delitem__(self, key):
        del self.content[key]
        self.dump()

    def __iter__(self):
        return iter(self.content)

    def __len__(self):
        return len(self.content)

    def dump(self):
        ...

    def __getstate__(self):
        return (self.path, self.content)

    def __setstate__(self, state):
        self.path = state[0]
        self.content = state[1]
Run Code Online (Sandbox Code Playgroud)

顺便说一句,使用 MutableMapping 超类的一大优点是,如果您正确实现文档中描述的方法,则可以保证您的代码已准备好用于生产(因此,无需担心错过精致的极端情况)。