Sha*_*hai 14 machine-learning neural-network gradient-descent deep-learning caffe
我正在努力训练一个非常大的模型.因此,我只能将非常小的批量大小放入GPU内存中.使用小批量大小会产生非常嘈杂的梯度估计.
我该怎么做才能避免这个问题?
Lia*_*iao 13
您可以更改iter_size解算器参数.Caffe 在每个随机梯度下降步骤中累积iter_sizex个batch_size实例的梯度.因此,iter_size由于内存有限,无法使用大型batch_size,因此增加也可以获得更稳定的渐变.
| 归档时间: |
|
| 查看次数: |
2903 次 |
| 最近记录: |