深度强化学习背景下batch size是什么意思?

gui*_*t11 3 reinforcement-learning batchsize

Batch size 指的是监督学习中神经工作训练的样本数量,然而,在强化学习的背景下,batch size 的含义是什么?它也指样品吗?如果是这样,样本在强化学习背景下的意义是什么?

Rui*_*ian 5

与监督学习相比,批量大小在强化学习中确实意味着同样的事情。“批量学习”(通常在小批量中)的直觉有两个方面:

  1. 由于硬件的内存限制,可能很难对超过 1,000,000 个数据点进行批量梯度下降。
  2. 计算整个数据的一个子集上的损失梯度,即代表整个数据。如果您在每一步训练的批次不能代表整个数据,那么您的更新步骤就会存在偏差。

在监督学习中,比如神经网络,你会做小批量梯度下降来更新你的神经网络。在深度强化学习中,您正在训练相同的神经网络,因此它以相同的方式工作。

在监督学习中,您的批次将由一组特征及其各自的标签组成。在深度强化学习中,情况类似。它是一个元组(状态、动作、奖励、t + 1 时的状态,有时已完成)。

状态:描述您的环境的原始状态

动作:您在该环境状态下执行的动作

Reward:在该状态下执行该动作后获得的奖励信号

状态 t+1:您的操作将您转移到的新状态。

完成:一个布尔值,表示您的任务结束。例如,如果您训练 RL 下棋,完成的将是赢得或输掉国际象棋比赛。

您将采样一批这些 (s, a, r, s(t+1), done) 元组。然后将其输入到 TD 更新规则中,通常采用以下形式:

在此处输入图片说明

两个 Q 是动作值,通过将 s、s(t+1) 和 a 传递到您的神经网络来计算。

然后,您将使用 Q 作为标签更新您的神经网络。