为什么仅在 CNN 中对通道进行批量归一化

我对此感到困惑了几个小时，因为对每个通道进行标准化是没有意义的——因为卷积网络中的每个通道都被认为是不同的“特征”。即，对所有通道进行归一化相当于对以平方英尺为单位的卧室数量进行归一化（来自 Andrew 的 ML 课程的多元回归示例）。这不是标准化所做的——你所做的是标准化每个特征本身。即，您将所有示例中的卧室数量标准化为 mu=0 和 std=1，并将所有示例中的平方英尺标准化为 mu=0 和 std=1。

在我自己检查和测试之后，我意识到问题是什么：这里有一些混淆/误解。您在 Keras 中指定的轴实际上是不在计算中的轴。即，除了此参数指定的轴之外，您将获得每个轴的平均值。这很令人困惑，因为它与 NumPy 的工作方式完全相反，其中指定的轴是您执行操作的轴（例如 np.mean、np.std 等）。编辑：在这里检查这个答案。

我实际上构建了一个只有 BN 的玩具模型，然后手动计算 BN - 取所有 3 个第一维度 [m, n_W, n_H] 的平均值，std 并得到 n_C 结果，计算 (X-mu)/std （使用广播）并得到与 Keras 结果相同的结果。

所以我对此非常确定。

归档时间：	8 年，3 月前
查看次数：	8966 次
最近记录：	5 年，2 月前