相关疑难解决方法(0)

训练期间nans的常见原因

我注意到在培训期间经常出现这种情况NAN.

通常情况下,内部产品/完全连接或卷积层中的重量似乎会被引入.

这是因为梯度计算正在爆发吗?或者是因为重量初始化(如果是这样,为什么重量初始化会产生这种效果)?或者它可能是由输入数据的性质引起的?

这里的首要问题很简单:在培训期间发生NAN的最常见原因是什么?其次,有什么方法可以解决这个问题(为什么它们有效)?

machine-learning neural-network gradient-descent deep-learning caffe

74
推荐指数
2
解决办法
3万
查看次数