我们应该以什么顺序调整神经网络中的超参数？

Question

我们应该以什么顺序调整神经网络中的超参数？

Pau*_*lin 19 neural-network hyperparameters tensorflow

我有一个非常简单的ANN使用Tensorflow和AdamOptimizer来解决回归问题,现在我正在调整所有超参数.

现在,我看到了许多不同的超参数,我必须调整:

学习率:初始学习率,学习率衰减
AdamOptimizer需要4个参数(学习率,beta1,beta2,epsilon),所以我们需要调整它们 - 至少epsilon
批量大小
迭代的nb
Lambda L2正则化参数
神经元数量,层数
什么样的激活函数用于隐藏层,用于输出层
辍学参数

我有两个问题:

1)你看到我可能忘记的任何其他超参数吗？

2)目前,我的调音非常"手动",我不确定我是不是以正确的方式做所有事情.是否有特殊的顺序来调整参数？例如学习率首先,然后批量大小,然后......我不确定所有这些参数是否独立 - 事实上,我很确定其中一些参数不是.哪些明显独立,哪些明显不独立？我们应该把它们调在一起吗？是否有任何纸张或文章谈论正确调整特殊订单中的所有参数？

编辑:这是我得到的不同初始学习率,批量大小和正则化参数的图表.紫色曲线对我来说是完全奇怪的...因为成本随着其他方式慢慢下降,但它却以较低的准确率陷入困境.该模型是否可能陷入局部最小值？

准确性

成本

对于学习率,我使用了衰变:LR(t)= LRI/sqrt(epoch)

谢谢你的帮助 !保罗