许多词典使用大量的RAM

Jor*_*dan 4 python memory optimization dictionary python-3.x

我有一个非常简单的Python脚本来创建(用于测试目的),列表中有3500万个字典对象.每个字典对象包含两个键/值对.例如.

{'Name': 'Jordan', 'Age': 35}
Run Code Online (Sandbox Code Playgroud)

该脚本非常简单地对名称和年龄进行查询,搜索字典列表并返回包含所有匹配字典条目索引的新列表.

但是,如下所示,消耗了大量内存.我认为我在某个地方犯了一个非常天真的错误.

代码和任务管理器的屏幕截图显示ram使用情况

我的代码如下:(如果更具可读性,也可以在图像中查看).

import sys

# Firstly, we will create 35 million records in memory, all will be the same apart from one

def search(key, value, data, age):
    print("Searching, please wait")
    # Create list to store returned PKs
    foundPKS = []
    for index in range(0, len(data)):
        if key in data[index] and 'Age' in data[index]:
            if data[index][key] == value and data[index]['Age'] >= age:
                foundPKS.append(index)
    results = foundPKS
    return results

def createdata():
    # Let's create our list for storing our dictionaries
    print("Creating database, please wait")
    dictList = []
    for index in range(0, 35000000):
        # Define dictionary
        record = {'Name': 'Jordan', 'Age': 25}
        if 24500123 <= index <= 24500200:
            record['Name'] = 'Chris'
            record['Age'] = 33
        # Add the dict to a list
        dictList.append(record)
    return dictList

datareturned = createdata()

keyname = input("For which key do you wish to search?")
valuename = input("Which values do you want to find?")
valueage = input("What is the minimum age?")

print("Full data set object size:" + str(sys.getsizeof(datareturned)))
results = search(keyname, valuename, datareturned, int(valueage))

if len(results) > 0:
    print(str(len(results)) + " found. Writing to results.txt")
    fo = open("results.txt", "w")
    for line in range(0, len(results)):
        fo.write(str(results[line]) + "\n")
    fo.close()
Run Code Online (Sandbox Code Playgroud)

什么导致大量消耗RAM?

jua*_*aga 13

dict对象的开销非常大.这取决于您的Python版本和系统架构,但取决于Python 3.5 64位

In [21]: sys.getsizeof({})
Out[21]: 288
Run Code Online (Sandbox Code Playgroud)

所以估计:

250*36e6*1e-9 == 9.0
Run Code Online (Sandbox Code Playgroud)

所以这是对我的内存使用量的下限千兆字节,如果我创造了很多字典,而不是在保理list!

而不是使用dict作为记录类型,这不是用例,请使用namedtuple.

为了了解这是如何比较的,让我们设置一个等效的元组列表:

In [23]: Record = namedtuple("Record", "name age")

In [24]: records = [Record("john", 28) for _ in range(36000000)]

In [25]: getsizeof = sys.getsizeof
Run Code Online (Sandbox Code Playgroud)

考虑:

In [31]: sum(getsizeof(record)+ getsizeof(record.name) + getsizeof(record.age)  for record in records)
Out[31]: 5220000000

In [32]: _ + getsizeof(records)
Out[32]: 5517842208

In [33]: _ * 1e-9
Out[33]: 5.517842208
Run Code Online (Sandbox Code Playgroud)

所以5演出是一个相当保守的上限.例如,它假设没有小型int缓存,对于记录类型的年龄而言,这将完全重要.在我自己的系统上,python进程正在注册2.7 gig的内存使用量(via top).

因此,在我的机器中实际发生的事情更好地建模为保守字符串假设 - 平均大小为10的唯一字符串,因此没有字符串实习 - 但对于整数而言是自由的,假设int-caching正在处理我们的int对象,所以我们只需要担心8字节的指针!

In [35]: sum(getsizeof("0123456789") + 8  for record in records)
Out[35]: 2412000000

In [36]: _ + getsizeof(records)
Out[36]: 2709842208

In [37]: _ * 1e-9
Out[37]: 2.709842208
Run Code Online (Sandbox Code Playgroud)

对于我所观察到的东西,这是一个很好的模型top.

如果你真的想要高效存储

现在,如果你真的想把数据塞入ram,那么你将不得不失去Python的灵活性.您可以array结合使用该模块struct,以获得类似C的内存效率.一个更容易涉足的世界可能是numpy相反的,这允许类似的事情.例如:

In [1]: import numpy as np

In [2]: recordtype = np.dtype([('name', 'S20'),('age', np.uint8)])

In [3]: records = np.empty((36000000), dtype=recordtype)

In [4]: records.nbytes
Out[4]: 756000000

In [5]: records.nbytes*1e-9
Out[5]: 0.756
Run Code Online (Sandbox Code Playgroud)

请注意,我们现在可以非常紧凑.我可以使用8位无符号整数(即单个字节)来表示年龄.但是,我立即面临一些不灵活性:如果我想要有效存储字符串,我必须定义最大尺寸.我用过'S20',这是20个字符.这些是ASCII字节,但是20个ascii字符的字段可能足以满足名称.

现在,numpy为您提供了许多包装C编译代码的快速方法.所以,只是为了解决它,让我们用一些玩具数据填充我们的记录.名称只是简单计数的数字串,年龄将从正态分布中选择,平均值为50,标准差为10.

In [8]: for i in range(1, 36000000+1):
   ...:     records['name'][i - 1] = b"%08d" % i
   ...:

In [9]: import random
   ...: for i in range(36000000):
   ...:     records['age'][i] = max(0, int(random.normalvariate(50, 10)))
   ...:
Run Code Online (Sandbox Code Playgroud)

现在,我们可以使用numpy来查询我们的records.例如,如果您希望记录的索引具有某些条件,请使用np.where:

In [10]: np.where(records['age'] > 70)
Out[10]: (array([      58,      146,      192, ..., 35999635, 35999768, 35999927]),)

In [11]: idx = np.where(records['age'] > 70)[0]

In [12]: len(idx)
Out[12]: 643403
Run Code Online (Sandbox Code Playgroud)

所以643403有年龄的记录> 70.现在,让我们试试100:

In [13]: idx = np.where(records['age'] > 100)[0]

In [14]: len(idx)
Out[14]: 9

In [15]: idx
Out[15]:
array([ 2315458,  5088296,  5161049,  7079762, 15574072, 17995993,
       25665975, 26724665, 28322943])

In [16]: records[idx]
Out[16]:
array([(b'02315459', 101), (b'05088297', 102), (b'05161050', 101),
       (b'07079763', 104), (b'15574073', 101), (b'17995994', 102),
       (b'25665976', 101), (b'26724666', 102), (b'28322944', 101)],
      dtype=[('name', 'S20'), ('age', 'u1')])
Run Code Online (Sandbox Code Playgroud)

当然,一个主要的不灵活性是numpy阵列的大小.调整大小的操作很昂贵.现在,你可以numpy.array在一个类中包装一个它,它将作为一个有效的主干,但在那一点上,你也可以使用一个真正的数据库.幸运的是,Python随之而来sqlite.