卷积神经网络如何处理通道

Swa*_*azy 5 machine-learning convolution computer-vision

我已经查看了很多关于 CNN 传统处理多个通道(例如 RGB 图像中的 3 个)的方式的解释,但仍然不知所措。

当 5x5x3 过滤器(例如)应用于 RGB 图像的补丁时,究竟会发生什么?实际上,每个通道分别发生了 3 个不同的 2D 卷积(具有独立的权重)吗?然后将结果简单地加在一起以产生最终输出以传递给下一层?还是真正的3D卷积?

小智 7

在此处输入图片说明

这张图片来自 Andrew Ng 的 deeplearning.ai 课程。6 X 6 X 3 - 其中 3 对应于 3 个颜色通道。6 X 6 是图像的高度和宽度。对于卷积步骤,我们使用 3 X 3 X 3 滤波器/内核对输入图像进行卷积。输入图像和过滤器都有 3 层。(大多数情况下,输入图像和过滤器都是相同的)。输出将是 4 X 4 X 1。3 X 3 X 3 为您提供 27 个特征/参数,您可以将它们与相应的红色、绿色和蓝色通道相乘。最后将所有这些数字相加以获得 4 X 4 输出图像中 [0,0] 的值。现在移动输入图像的黄色立方体并将其滑过右侧的 1 个框,一旦到达右端,将立方体向下滑动一行并继续乘法以填充 4 X 4 输出。建议你拿纸和笔,

有关更多详细信息,请在 youtube 上观看这些讲座。 https://www.youtube.com/watch?v=KTB_OFoAQcc&index=6&list=PLkDaE6sCZn6Gl29AoE31iwdVwSG-KnDzF

https://www.youtube.com/watch?v=7g8jpK4llkc&t=1s

  • 好吧,它实际上只是第一层的 3D 卷积,用于处理 RGB 性质,其行为与应用于单通道图像的 CNN 完全相同。我理解对了吗?谢谢你的帮助! (2认同)