Ale*_*lex 27 machine-learning computer-vision neural-network deep-learning conv-neural-network
众所周知,现代最流行的CNN(卷积神经网络):VGG/ResNet(FasterRCNN),SSD,Yolo,Yolo v2,DenseBox,DetectNet - 不是旋转不变的:现代CNN(卷积神经网络)是否像DetectNet一样旋转不变?
还知道,有几个神经网络具有旋转不变对象检测:
Rotation-Invariant Neoperceptron 2006(PDF):https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron
学习用于纹理分类的旋转不变卷积滤波器2016(PDF):https://arxiv.org/abs/1604.06720
RIFD-CNN:用于物体检测的旋转不变和Fisher判别卷积神经网络2016(PDF):http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html
卷积神经网络中的编码不变性2014(PDF)
用于星系形态预测的旋转不变卷积神经网络(PDF):https://arxiv.org/abs/1503.07077
学习旋转不变卷积神经网络用于VHR光学遥感图像中的物体检测2016:http://ieeexplore.ieee.org/document/7560644/
我们知道,在这样的图像检测竞赛中:IMAGE-NET,MSCOCO,PASCAL VOC - 使用的网络集合(同时是一些神经网络).或网络集成在单网中,如ResNet(残留网络表现得像相对浅网络的集合)
但是在像MSRA这样的获胜者中使用旋转不变的网络集合,如果没有,那么为什么呢?为什么在整体中额外的旋转不变网络不会增加精确度以检测某些物体,例如飞机物体 - 哪些图像是在不同的旋转角度下完成的?
有可能:
为什么旋转不变神经网络不会用于流行的对象检测竞赛的获胜者?
图像识别的最新进展主要是通过改变从经典特征选择的方法 - 浅学习算法到无胎儿选择 - 深度学习算法不仅是由卷积神经网络的数学特性引起的.是的 - 当然,他们使用较少数量的参数捕获相同信息的能力部分是由于他们的移位不变性,但最近的研究表明,这不是理解他们成功的关键.
在我看来,这种成功背后的主要原因是开发更快的学习算法而不是更加数学上准确的算法,这就是为什么开发另一个属性不变的神经网络的注意力较少.
当然 - 根本不会跳过旋转不变性.这部分是通过数据增加实现的,您可以将稍微更改过的(例如旋转或重新调整的)图像放到数据集中 - 使用相同的标签.正如我们在这本奇妙的书中所读到的,这两种方法(更多结构与更少结构+数据增加)或多或少相同.
小智 6
我还想知道为什么社区或学者没有像 @Alex 那样对定量不变 CNN 给予太多关注。
在我看来,一个可能的原因是很多场景不需要这个属性,特别是对于那些流行的比赛。正如Rob提到的,一些自然照片已经以统一的水平(或垂直)方式拍摄。例如,在人脸检测中,许多作品都会对齐图片以确保人们站在地球上,然后再输入任何 CNN 模型。老实说,这是完成这项特定任务最便宜、最有效的方法。
然而,现实生活中确实存在一些场景,需要旋转不变性。所以我得出另一个猜测:这个问题在那些专家(或研究人员)看来并不困难。至少我们可以使用数据增强来获得一些旋转不变量。
最后,非常感谢您对论文的总结。我又添加了一篇论文Group Equivariant Convolutional Networks_icml2016_GCNN及其在 github 上 由其他人实现的实现。
对象检测主要是由世界著名的对象检测基准(如 PASCAL-VOC 和 MS-COCO)中检测算法的成功推动的,这些基准是以对象为中心的数据集,其中大多数对象是垂直的(盆栽植物、人类、马等),因此通过左右翻转进行数据增强通常就足够了(据我们所知,通过旋转图像(例如颠倒翻转)进行数据增强甚至可能会损害检测性能)。
每年,整个社区都会采用获胜解决方案的基本算法结构,并在此基础上进行构建(我有点夸张是为了证明一点,但没有那么夸张)。
有趣的是,其他不太广为人知的主题,例如航空图像中的定向文本检测和定向车辆检测都需要旋转不变特征和旋转等变检测管道(就像您提到的 Cheng 的两篇文章一样)。
如果您想查找该领域的文献和代码,您需要深入研究这两个领域。我已经可以为您提供一些建议,例如航空图像的DOTA挑战或定向文本检测的 ICDAR 挑战。
正如 @Marcin Mozejko 所说,CNN 本质上是平移不变的,而不是旋转不变的。如何结合完美旋转不变性是一个悬而未决的问题,尽管其中一些 文章看起来很有希望,但处理它的几篇文章尚未成为标准。我个人最喜欢的检测是Ma最近提出的 Faster R-CNN 的修改。
我希望当人们厌倦了 MS-COCO 和 VOC 后,这个研究方向将得到越来越多的研究。
您可以尝试的是采用在 MS-COCO 上训练的最先进的检测器,例如来自 TF 检测 API 的带有 NASNet 的 Faster R-CNN,并查看它如何执行旋转测试图像的操作,在我看来,它远非如此旋转不变性。
| 归档时间: |
|
| 查看次数: |
15934 次 |
| 最近记录: |