在循环中使用多个模型时，tensorflow 或 python 是否存在内存清理问题？

Question

在循环中使用多个模型时，tensorflow 或 python 是否存在内存清理问题？

jjs*_*jjs 10 python garbage-collection memory-leaks tensorflow

我正在研究一个占用大量内存的 tensorflow 模型。它被迭代执行以处理给定的任务。

然而，随着时间的增加，整个过程开始消耗越来越多的 RAM，尽管它应该清理它。这听起来好像我会在迭代中保留一张图的数据，但我几乎可以肯定这些图是完全分开的。

问题

我将代码简化为以下内容：

import tensorflow as tf
import numpy as np

reps = 30
for i in range(reps):
    with tf.Graph().as_default() as graph:
        with tf.Session(graph=graph) as sess:
            tf.constant(np.random.random((1000,1000,200,1)))

Run Code Online (Sandbox Code Playgroud)

我有 32GB RAM 可用，在 ubuntu 17.04 上使用 CPU Tensorflow 1.3。这将在第 25 次或第 27 次迭代后给出以下错误消息：

在抛出 'std::bad_alloc' what() 实例后调用终止： std::bad_alloc

在每次迭代后给过程一些时间不会导致任何改进：

import tensorflow as tf
import numpy as np
import time

reps = 30
for i in range(reps):
    with tf.Graph().as_default() as graph:
        with tf.Session(graph=graph) as sess:
            tf.constant(np.random.random((1000,1000,200,1)))
    time.sleep(1)

Run Code Online (Sandbox Code Playgroud)

但是，如果我在每次重复后强制执行垃圾收集调用，它就会起作用：

import tensorflow as tf
import numpy as np
import gc

reps = 30
for i in range(reps):
    with tf.Graph().as_default() as graph:
        with tf.Session(graph=graph) as sess:
            tf.constant(np.random.random((1000,1000,200,1)))
    gc.collect()

Run Code Online (Sandbox Code Playgroud)

题

现在我想知道为什么我需要强制垃圾收集运行，即使 tensorflow 应该关闭会话并取消引用图形对象。

回到我的原始模型，我不确定 gc 调用是否真的有帮助。内存使用量变得非常高，尤其是当我将模型持久化到磁盘时。

是否有关于如何迭代处理大型模型的最佳实践？这是一个实际的内存问题吗？

感谢您提供任何见解。

Answer 1

qui*_*997 0

尝试 tf.reset_default_graph()

在循环中构建图时 Tensorflow 内存泄漏

https://www.tensorflow.org/api_docs/python/tf/compat/v1/reset_default_graph

归档时间：	8 年，2 月前
查看次数：	1427 次
最近记录：	4 年，4 月前