为什么我们需要时代?

Sla*_*kin 4 machine-learning

在课程中没有关于 epoch 的内容,但在实践中它们无处不在。如果优化器在一次通过中找到最佳权重,为什么我们需要它们。为什么模型会改进?

Sar*_*hak 5

通常,无论何时要优化,都可以使用梯度下降。梯度下降有一个参数叫做学习率。仅在一次迭代中,您不能保证梯度下降算法会以指定的学习率收敛到局部最小值。这就是为什么您再次迭代以使梯度下降更好地收敛的原因。

通过观察学习曲线以更好地收敛来改变每个时期的学习率也是一种很好的做法。