我注意到在培训期间经常出现这种情况NAN.
NAN
通常情况下,内部产品/完全连接或卷积层中的重量似乎会被引入.
这是因为梯度计算正在爆发吗?或者是因为重量初始化(如果是这样,为什么重量初始化会产生这种效果)?或者它可能是由输入数据的性质引起的?
这里的首要问题很简单:在培训期间发生NAN的最常见原因是什么?其次,有什么方法可以解决这个问题(为什么它们有效)?
machine-learning neural-network gradient-descent deep-learning caffe
caffe ×1
deep-learning ×1
gradient-descent ×1
machine-learning ×1
neural-network ×1