神经网络,局部最小规避技术

hus*_*sik 1 optimization machine-learning neural-network

我是这个主题的新手,尝试了一些关于逃避本地最小值的不同事情.我使用随机学习率和动量,但对于一小部分的训练,它会卡住并且无法学习任何东西(有时候会在开始时,有时候是中间),即使是随机的起始权重和偏差.

我尝试了几种不同的设置来教授XOR,例如:

 1)Faster learning but with a bigger chance of locally trapped. 
 (learns in less than 1200 iterations total)

 2)Slow learning but with evading local minimum better.
 (learns under 40k iterations total)

 3)Very steep learning with ~%50 chance of pit-fall(learns under 300 iterations total)
Run Code Online (Sandbox Code Playgroud)

问题:是否有几名学生参加培训并选择最值得学习的学生?或者我们是否需要专注于为单一设置获得%100的成功率?

例:

 3 students (XOR candidates) learning in parallel: 

 -First student is learning fast(learns first, tells others to stop to save cycles)
 -Other two are slow learners to increase success rate of training
Run Code Online (Sandbox Code Playgroud)

lej*_*lot 5

有许多可能的方法来逃避局部最小值.过去已经研究过并行学习,结果不同,但没有达到"全球使用".一些研究人员简单地提出了使用不同参数和/或起点的重复训练,其他人 - 尝试使用其他训练算法,如模拟退火报告良好结果.

最近的方法包括所谓的极端学习机,其中神经网络以高度正则化的形式学习,其中全局最小值使用Moore-Penrose伪逆.如果您在工作中遇到局部最小问题,我建议尝试一下,作为一个非常新的,强大的并且实现令人惊讶的好结果 - 模型.

我真的不明白为什么你指的是XOR问题,AFAIK 这个问题没有本地最小值.

我从未听过有人称机器学习模式为"学生",这使得这个问题非常奇怪.有些人正在使用"学习者"但是"学生"?