moh*_*mad 383 artificial-intelligence terminology machine-learning neural-network deep-learning
训练多层感知器时,纪元和迭代之间有什么区别?
Fra*_*urt 546
在神经网络术语中:
示例:如果您有1000个训练样例,并且批量大小为500,则需要2次迭代才能完成1个时期.
仅供参考:权衡批量大小与训练神经网络的迭代次数
术语"批处理"是模糊的:有些人用它来指定整个训练集,有些人用它来指代一个前进/后退中的训练样例的数量(正如我在这个答案中所做的那样).为了避免这种模糊性并明确批次对应于一个前向/后向传递中的训练样例的数量,可以使用术语小批量.
Kho*_*hon 133
时代和迭代描述了不同的东西.
一个历元描述的次算法看到数量整个数据集.因此,每次算法看到数据集中的所有样本时,都会完成一个时期.
一个迭代描述的次数一批次通过算法传递的数据.在神经网络的情况下,这意味着向前传递和向后传递.因此,每次通过NN传递一批数据时,都会完成迭代.
一个例子可能会让它更清晰.
假设您有10个示例(或示例)的数据集.批量大小为2,并且您已指定希望算法运行3个时期.
因此,在每个时代,你有5批(10/2 = 5).每个批次都通过算法,因此每个时期有5次迭代.由于您已指定3个时期,因此您总共需要15次迭代(5*3 = 15)进行训练.
Pre*_*tor 23
许多神经网络训练算法涉及将整个数据集多次呈现给神经网络.通常,整个数据集的单个呈现被称为"时期".相反,一些算法一次将单个案例的数据呈现给神经网络.
"迭代"是一个更通用的术语,但由于你将它与"epoch"一起询问,我认为你的来源是指将单个案例呈现给神经网络.
inv*_*dex 15
我猜在神经网络术语的上下文中:
为了定义迭代(又名steps),您首先需要了解批量大小:
批量大小:您可能不希望在一次前向传递中处理整个训练实例,因为它效率低下并且需要大量内存。所以通常做的是将训练实例分成子集(即批次),对选定的子集(即批次)执行一次传递,然后通过反向传播优化网络。子集(即批次)中的训练实例数称为batch_size。
迭代:(又名训练步骤)您知道您的网络必须一次遍历所有训练实例才能完成一个 epoch。可是等等!当您将训练实例分成批次时,这意味着您只能在一次前向传递中处理一批(训练实例的子集),那么其他批次呢?这就是迭代一词发挥作用的地方:
定义:您的网络为了完成一个时期(即遍历所有训练实例)而必须执行的前向传递次数(您创建的批次数)称为迭代。
例如,当你有 10000 个训练实例并且你想要做大小为 10 的批处理时;你必须做 10000/10 = 1000次迭代才能完成 1 epoch。
希望这能回答你的问题!
nik*_*ani 13
要了解它们之间的区别,您必须了解梯度下降算法及其变体。
在开始实际答案之前,我想建立一些背景。
一个批次是完整的数据集。它的大小是可用数据集中训练示例的总数。
最小批量大小是学习算法在一次遍历中(向前和向后)处理的示例数。
一小批是给出的数据集的一小部分小批量大小。
迭代次数是算法看到的数据批处理数量(或简单来说是算法在数据集上完成的传递次数)。
时代是次数的学习算法看到完整的数据集。现在,这可能不等于迭代次数,因为数据集也可以按小批处理。本质上,单遍可能只处理数据集的一部分。在这种情况下,迭代次数不等于epochs的次数。
在批次梯度下降的情况下,整个批次将在每个训练遍上进行处理。因此,梯度下降优化器的收敛性比Mini-batch梯度下降更平滑,但是花费的时间更多。如果存在梯度梯度下降,可以保证找到最佳值。
随机梯度下降是小批量梯度下降的一种特殊情况,其中小批量大小为1。
Mil*_* P. 11
你有一个训练数据,你可以随机抽取并从中挑选小批量.当您使用一个小批量调整权重和偏差时,您已完成一次迭代.一旦你用完了迷你批次,你就完成了一个时代.然后你再次洗牌你的训练数据,再次选择你的迷你批次,并再次遍历所有这些.那将是你的第二个时代.
通常情况下,您将测试集分成小批量供网络学习,并逐步完成培训,逐层应用渐变下降.所有这些小步骤都可以称为迭代.
一个纪元对应于整个网络一次通过的整个训练集.限制这一点可能是有用的,例如对抗过度拟合.
一个纪元包含一些迭代.这实际上就是这个'时代'.让我们将'epoch'定义为数据集上的迭代次数,以便训练神经网络.
Epoch 是神经网络看到所有数据的 1 个完整周期。
有人可能会说需要 100,000 张图像来训练模型,但是,内存空间可能不足以一次处理所有图像,因此我们将模型训练分成称为批次的较小数据块。例如批量大小为 100。
我们需要使用多个批次覆盖所有图像。因此我们需要 1000 次迭代才能覆盖所有 100,000 张图像。(100 批量大小 * 1000 次迭代)
一旦神经网络查看了整个数据,它就被称为 1 Epoch(点 1)。人们可能需要多个时期来训练模型。(假设 10 个 epoch)。