什么是"语义分割"与"分割"和"场景标记"相比?

Mar*_*oma 92 image-processing object-detection computer-vision image-segmentation semantic-segmentation

语义分割只是一个Pleonasm还是"语义分割"和"分割"之间存在差异?"场景标记"或"场景解析"有区别吗?

像素级和像素级分割有什么区别?

(旁边问题:当你有这种像素方式的注释时,你是否可以免费获得物体检测,还是还有什么可做的?)

请提供您的定义来源.

使用"语义分割"的来源

使用"场景标签"的来源

使用"像素级"的来源

  • Pinheiro,Pedro O.和Ronan Collobert:"从卷积网络的图像级到像素级标签." 2015年计算机视觉和模式识别会议论文集.(见http://arxiv.org/abs/1411.6228)

使用"pixelwise"的来源

谷歌Ngrams

"语义分割"似乎最近比"场景标记"更多地使用

在此输入图像描述

Sha*_*hai 82

"分割"是将图像划分为若干"连贯"部分,但试图理解这些部分代表什么.最着名的作品之一(但绝对不是第一部)是Shi和Malik"Normalized Cuts and Image Segmentation"PAMI 2000.这些作品试图用低级线索来定义"连贯性",例如颜色,纹理和边界的平滑度.您可以追溯这些作品到格式塔理论.

另一方面,"语义分割"试图将图像划分为语义上有意义的部分,并将每个部分分类为预定的类之一.您还可以通过对每个像素(而不是整个图像/片段)进行分类来实现相同的目标.在这种情况下,您正在进行像素分类,这导致相同的最终结果,但路径略有不同......

所以,我想你可以说"语义分割","场景标记"和"像素分类"基本上都试图达到同样的目标:从语义上理解图像中每个像素的作用.你可以采取很多途径来达到这个目标,这些路径会导致术语中的细微差别.

  • @moose一般来说,如果你使用起源于"分割"研究领域的工具和算法(例如,CRF,平滑诱导术语等),那么你正在进行"语义分割".另一方面,如果您使用图像分类中使用的工具和算法在本地使用它们,则更有可能将您的工作描述为"按像素标注".但是,我认为没有任何实际差异,只有语义:这些是同一个目标的完全同义词. (3认同)
  • 哪条路径导致语义分割并导致场景标记或像素分类? (2认同)

e_s*_*ush 58

我阅读了很多关于物体检测,物体识别,物体分割,图像分割和语义图像分割的论文,这里的结论可能不正确:

对象识别:在给定的图像中,您必须检测所有对象(受限制的对象类取决于您的数据集),使用边界框对其进行本地化,并使用标签标记该边界框.在下面的图像中,您将看到最先进的物体识别的简单输出.

物体识别

对象检测:它类似于对象识别,但在此任务中,您只有两类对象分类,即对象边界框和非对象边界框.例如汽车检测:您必须使用其边界框检测给定图像中的所有汽车.

物体检测

对象分割:与对象识别一样,您将识别图像中的所有对象,但输出应显示此对象对图像的像素进行分类.

对象分割

图像分割:在图像分割中,您将分割图像的区域.您的输出不会标记段和图像区域彼此一致应该在同一段中.从图像中提取超像素是该任务或前景 - 背景分割的示例.

图像分割

语义分割:在语义分割中,您必须使用一类对象(Car,Person,Dog,...)和非对象(Water,Sky,Road,...)标记每个像素.换句话说,在语义分割中,您将标记每个图像区域.

语义分割

我认为像素级和像素级标签基本上是相同的可能是图像分割或语义分割.我也在这个链接中回答了你的问题.

  • 我还会添加实例分段,即同一对象的实例之间的分离 (7认同)

phy*_*bus 34

以前的答案真的很棒,我想指出一些补充:

对象分割

这在研究界失宠的原因之一是因为它有问题含糊不清.对象分割过去只是意味着在图像中查找单个或少量的对象并在其周围绘制边界,并且在大多数情况下,您仍然可以认为它意味着这一点.然而,它也开始用于表示可能是对象的斑点的分割,从背景中分割对象(更常见的现在称为背景减法或背景分割或前景检测),甚至在某些情况下可以与对象识别交替使用边界框(随着对象识别的深度神经网络方法的出现,这很快就停止了,但事先对象识别也可能意味着简单地用其中的对象标记整个图像).

是什么让"细分"成为"语义"?

Simpy,每个段,或者在每个像素的深度方法的情况下,基于类别给出类标签.一般而言,分割只是通过某种规则划分图像.例如,根据图像能量的变化,从非常高的水平划分数据的均值分割.基于图切割的分割同样没有学习,而是直接从与其余图像分开的每个图像的属性得出.更近期(基于神经网络的)方法使用被标记的像素来学习识别与特定类相关联的局部特征,然后基于哪个类对该像素具有最高置信度来对每个像素进行分类.通过这种方式,"像素标记"实际上是任务的更诚实的名称,并且"分段"组件是紧急的.

实例分段

可以说是对象分割最困难,最相关和最原始的含义,"实例分割"是指场景中各个对象的分割,无论它们是否是同一类型.然而,这是如此困难的原因之一是因为从视觉角度(在某些方面是哲学的角度),使"对象"实例的内容并不完全清楚.身体部位是物体吗?是否应该通过实例分割算法对这些"部分对象"进行细分?如果他们被看作与整体分开,他们应该只是分段吗?如果复合物体应该清楚地连接两个东西,那么可分离的是一个或两个物体(除非正确制造,否则是粘在斧头,锤子或仅仅是棍子和岩石上面的岩石?).此外,尚不清楚如何区分实例.遗嘱是否与其附着的其他墙壁分开?应该计算实例的顺序是什么?他们出现了吗?靠近观点?尽管存在这些困难,对象的分割仍然是一个大问题,因为作为人类,我们始终与对象进行交互而不管其"类别标签"(使用您周围的随机对象作为纸张重量,坐在不是椅子的东西上),所以有些数据集确实试图解决这个问题,但是对问题没有太多关注的主要原因还在于它没有很好地定义. 在此输入图像描述

场景解析/场景标注

场景解析是场景标注的严格分割方法,也存在一些模糊问题.从历史上看,场景标记意味着将整个"场景"(图像)划分为多个段,并为它们提供所有类标签.但是,它也用于表示为图像区域提供类标签而不明确地对其进行分割.关于分割,"语义分割" 并不意味着划分整个场景.对于语义分割,该算法旨在仅分割它所知道的对象,并且将通过其损失函数来惩罚以标记没有任何标签的像素.例如,MS-COCO数据集是用于语义分段的数据集,其中仅一些对象被分段. MS-COCO样本图像