我正在努力训练一个非常大的模型.因此,我只能将非常小的批量大小放入GPU内存中.使用小批量大小会产生非常嘈杂的梯度估计. 我该怎么做才能避免这个问题?
machine-learning neural-network gradient-descent deep-learning caffe
caffe ×1
deep-learning ×1
gradient-descent ×1
machine-learning ×1
neural-network ×1