Python json内存臃肿

Question

Python json内存臃肿

Ano*_*oop 5 python json garbage-collection

import json
import time
from itertools import count

def keygen(size):
    for i in count(1):
        s = str(i)
        yield '0' * (size - len(s)) + str(s)

def jsontest(num):
    keys = keygen(20)
    kvjson = json.dumps(dict((keys.next(), '0' * 200) for i in range(num)))
    kvpairs = json.loads(kvjson)
    del kvpairs # Not required. Just to check if it makes any difference                            
    print 'load completed'

jsontest(500000)

while 1:
    time.sleep(1)

Run Code Online (Sandbox Code Playgroud)

Linux top表明在'jsontest'函数完成后,python进程保存了~450Mb的RAM.如果省略对' json.loads ' 的调用,则不会出现此问题.执行此函数后的gc.collect 会释放内存.

看起来内存没有保存在任何缓存或python的内部内存分配器中,因为对gc.collect的显式调用正在释放内存.

这是否发生是因为从未达到垃圾收集的门槛(700,10,10)？

我确实在jsontest之后放了一些代码来模拟阈值.但它没有帮助.

Answer 1

Gar*_*ees 3

把它放在你的程序的顶部

import gc
gc.set_debug(gc.DEBUG_STATS)

Run Code Online (Sandbox Code Playgroud)

只要有集合，您就会得到打印输出。您将看到，在示例代码中，完成后没有集合jsontest，直到程序退出。

你可以把

print gc.get_count()

Run Code Online (Sandbox Code Playgroud)

查看当前计数。第一个数字是自第 0 代最后一次收集以来分配超过释放的数量；第二个（或第三个）是自上次收集第 1 代（或第 2 代）以来收集第 0 代（或第 1 代）的次数。如果您在完成后立即打印这些内容，jsontest您将看到计数(548, 6, 0)或类似的内容（毫无疑问，这根据 Python 版本而有所不同）。所以没有达到门槛，也没有进行收集。

这是基于阈值的垃圾收集调度的典型行为。如果需要及时将空闲内存返回给操作系统，那么需要将基于阈值的调度与基于时间的调度相结合（即自上次收集起经过一定时间后请求再次收集，即使尚未达到阈值）。

尝试在每次调用“jsontest”后打印“gc.get_count()”，一切都应该清楚了。另外，调用 `gc.collect` 有什么问题吗？ (2认同)

归档时间：	14 年，3 月前
查看次数：	2967 次
最近记录：	14 年，3 月前