Caffe:如果只有一小批产品适合内存,我该怎么办？

Question

我正在努力训练一个非常大的模型.因此,我只能将非常小的批量大小放入GPU内存中.使用小批量大小会产生非常嘈杂的梯度估计.
我该怎么做才能避免这个问题？

Answer 1

您可以更改iter_size解算器参数.Caffe 在每个随机梯度下降步骤中累积iter_sizex个batch_size实例的梯度.因此,iter_size由于内存有限,无法使用大型batch_size,因此增加也可以获得更稳定的渐变.