计算数据结构的md5哈希值

Ned*_*der 44 python md5 data-structures

我想计算一个不是字符串的md5哈希,而是计算整个数据结构.我理解一种方法的机制(对值的类型进行调度,规范化字典键顺序和其他随机性,递归到子值等).但这似乎是一种通常有用的操作,所以我很惊讶我需要自己动手.

在Python中有一些更简单的方法来实现这一目标吗?

更新:pickle已被建议,这是一个好主意,但酸洗不规范字典键顺序:

>>> import cPickle as pickle
>>> import hashlib, random 
>>> for i in range(10):
...  k = [i*i for i in range(1000)]
...  random.shuffle(k)
...  d = dict.fromkeys(k, 1)
...  p = pickle.dumps(d)
...  print hashlib.md5(p).hexdigest()
...
51b5855799f6d574c722ef9e50c2622b
43d6b52b885f4ecb4b4be7ecdcfbb04e
e7be0e6d923fe1b30c6fbd5dcd3c20b9
aebb2298be19908e523e86a3f3712207
7db3fe10dcdb70652f845b02b6557061
43945441efe82483ba65fda471d79254
8e4196468769333d170b6bb179b4aee0
951446fa44dba9a1a26e7df9083dcadf
06b09465917d3881707a4909f67451ae
386e3f08a3c1156edd1bd0f3862df481
Run Code Online (Sandbox Code Playgroud)

web*_*rst 70

json.dumps()可以按键对字典进行排序.所以你不需要其他依赖:

import hashlib
import json

data = ['only', 'lists', [1,2,3], 'dictionaries', {'a':0,'b':1}, 'numbers', 47, 'strings']
data_md5 = hashlib.md5(json.dumps(data, sort_keys=True)).hexdigest()

print(data_md5)
Run Code Online (Sandbox Code Playgroud)

打印:

87e83d90fc0d03f2c05631e2cd68ea02
Run Code Online (Sandbox Code Playgroud)

  • 在python3中会出现一个`TypeError:必须在散列之前编码Unicode对象`所以使用这个`data_md5 = hashlib.md5(json.dumps(data,sort_keys = True).encode('utf-8')).hexdigest ()` (14认同)
  • 很好的解决方案,但请记住,有些数据类型无法转换为JSON而无需额外的工作** - `datetime`是最常见的.`data = ['1234',234,datetime.datetime(2013,1,1)]``hashlib.md5(json.dumps(a,sort_keys = True)).hexdigest()`导致`TypeError:datetime. datetime(2013,1,1,0,0)不是JSON可序列化的 (4认同)
  • @Boris:很容易获得json模块来序列化更多数据类型(包括大多数用户定义类的实例以及datetime.datetime实例),如[我的答案](http:// stackoverflow.com/a/18561055/355230)到问题[_使用常规编码器_序列化对象JSON可序列化](http://stackoverflow.com/questions/18478287/making-object-json-serializable-with-regular-encoder)。 (2认同)

Dan*_* D. 26

bencode对字典进行排序:

import hashlib
import bencode
data = ['only', 'lists', [1,2,3], 
'dictionaries', {'a':0,'b':1}, 'numbers', 47, 'strings']
data_md5 = hashlib.md5(bencode.bencode(data)).hexdigest()
print data_md5
Run Code Online (Sandbox Code Playgroud)

打印:

af1b88ca9fd8a3e828b40ed1b9a2cb20
Run Code Online (Sandbox Code Playgroud)

  • 应该注意的是,[`bencode`](https://pypi.python.org/pypi/bencode/1.0)不是标准的Python 2或3模块. (11认同)

Ned*_*der 7

我自己写完了,因为我认为我必须:

class Hasher(object):
    """Hashes Python data into md5."""
    def __init__(self):
        self.md5 = md5()

    def update(self, v):
        """Add `v` to the hash, recursively if needed."""
        self.md5.update(str(type(v)))
        if isinstance(v, basestring):
            self.md5.update(v)
        elif isinstance(v, (int, long, float)):
            self.update(str(v))
        elif isinstance(v, (tuple, list)):
            for e in v:
                self.update(e)
        elif isinstance(v, dict):
            keys = v.keys()
            for k in sorted(keys):
                self.update(k)
                self.update(v[k])
        else:
            for k in dir(v):
                if k.startswith('__'):
                    continue
                a = getattr(v, k)
                if inspect.isroutine(a):
                    continue
                self.update(k)
                self.update(a)

    def digest(self):
        """Retrieve the digest of the hash."""
        return self.md5.digest()
Run Code Online (Sandbox Code Playgroud)


Ulf*_*lfR 6

您可以使用内置的pprint,它将涵盖比建议的json.dumps()解决方案更多的情况。例如datetime- 对象将被正确处理。

您的示例重写为使用pprint而不是json

>>> import hashlib, random, pprint
>>> for i in range(10):
...     k = [i*i for i in range(1000)]
...     random.shuffle(k)
...     d = dict.fromkeys(k, 1)
...     print hashlib.md5(pprint.pformat(d)).hexdigest()
... 
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
b4e5de6e1c4f3c6540e962fd5b1891db
Run Code Online (Sandbox Code Playgroud)