Python json内存臃肿

Ano*_*oop 5 python json garbage-collection

import json
import time
from itertools import count

def keygen(size):
    for i in count(1):
        s = str(i)
        yield '0' * (size - len(s)) + str(s)

def jsontest(num):
    keys = keygen(20)
    kvjson = json.dumps(dict((keys.next(), '0' * 200) for i in range(num)))
    kvpairs = json.loads(kvjson)
    del kvpairs # Not required. Just to check if it makes any difference                            
    print 'load completed'

jsontest(500000)

while 1:
    time.sleep(1)
Run Code Online (Sandbox Code Playgroud)

Linux top表明在'jsontest'函数完成后,python进程保存了~450Mb的RAM.如果省略对' json.loads ' 的调用,则不会出现此问题.执行此函数后 的gc.collect 会释放内存.

看起来内存没有保存在任何缓存或python的内部内存分配器中,因为对gc.collect的显式调用正在释放内存.

这是否发生是因为从未达到垃圾收集的门槛(700,10,10)?

我确实在jsontest之后放了一些代码来模拟阈值.但它没有帮助.

Gar*_*ees 3

把它放在你的程序的顶部

import gc
gc.set_debug(gc.DEBUG_STATS)
Run Code Online (Sandbox Code Playgroud)

只要有集合,您就会得到打印输出。您将看到,在示例代码中,完成后没有集合jsontest,直到程​​序退出。

你可以把

print gc.get_count()
Run Code Online (Sandbox Code Playgroud)

查看当前计数。第一个数字是自第 0 代最后一次收集以来分配超过释放的数量;第二个(或第三个)是自上次收集第 1 代(或第 2 代)以来收集第 0 代(或第 1 代)的次数。如果您在完成后立即打印这些内容,jsontest您将看到计数(548, 6, 0)或类似的内容(毫无疑问,这根据 Python 版本而有所不同)。所以没有达到门槛,也没有进行收集。

这是基于阈值的垃圾收集调度的典型行为。如果需要及时将空闲内存返回给操作系统,那么需要将基于阈值的调度与基于时间的调度相结合(即自上次收集起经过一定时间后请求再次收集,即使尚未达到阈值)。

  • 尝试在每次调用“jsontest”后打印“gc.get_count()”,一切都应该清楚了。另外,调用 `gc.collect` 有什么问题吗? (2认同)