tensorflow的反向传播是如何实现的？(记忆问题)

Question

我已经开始在TF中实现fast-rcnn(基于VGG16).在我学习的过程中,如果我试图在所有层上进行反向传播,那么我就会遇到内存问题.但测试工作得很好.(我有一台带有6G内存的Gforce GTX 1060)

我想知道怎么来的？TF保存需要两次保存参数才能进行培训吗？

Answer 1

这是因为激活.在前向传播期间,您只需要存储最后一层激活,因此内存使用与深度无关.要计算渐变,您需要存储所有层的激活,因此内存成本随着网络的深度而增加.