计算机视觉的地面实况数据收集和评估

Goo*_*mps 9 evaluation tracking metadata image-processing computer-vision

目前,我开始开发涉及人类追踪的计算机视觉应用.我想为将在此项目中记录的视频构建地面实况元数据.元数据可能需要手工标记,并且主要包括图像中人类的位置.我想使用元数据来评估我的算法的性能.

我当然可以使用例如qt和/或opencv构建标签工具,但我想知道是否有某种事实上的标准.我遇到了毒蛇,但它看起来已经死了,并不像我希望的那样容易.除此之外,我没有找到太多.

这里是否有人建议使用哪种软件/标准/方法进行标记和评估?我的主要偏好是去面向c ++,但这不是一个严格的约束.

亲切的问候和提前谢谢!汤姆

Goo*_*mps 5

我又看了一眼vatic并开始工作了.它是一个在线视频注释工具,用于通过商业服务进行众包,并在Linux上运行.但是,还有离线模式.在此模式下,不需要用于利用此软件的服务,并且软件独立运行.

附带的README文件中详细描述了安装.除其他外,它涉及设置appache和mysql服务器,一些python包,ffmpeg.如果您按照自述文件进行操作并不困难.(我提到我的代理有一些问题,但这与此软件包无关).

您可以尝试在线演示.默认输出如下:

0 302 113 319 183 0 1 0 0 "person"
0 300 112 318 182 1 1 0 1 "person"
0 298 111 318 182 2 1 0 1 "person"
0 296 110 318 181 3 1 0 1 "person"
0 294 110 318 181 4 1 0 1 "person"
0 292 109 318 180 5 1 0 1 "person"
0 290 108 318 180 6 1 0 1 "person"
0 288 108 318 179 7 1 0 1 "person"
0 286 107 317 179 8 1 0 1 "person"
0 284 106 317 178 9 1 0 1 "person"
Run Code Online (Sandbox Code Playgroud)

每行包含10列以空格分隔.这些列的定义是:

1   Track ID. All rows with the same ID belong to the same path.
2   xmin. The top left x-coordinate of the bounding box.
3   ymin. The top left y-coordinate of the bounding box.
4   xmax. The bottom right x-coordinate of the bounding box.
5   ymax. The bottom right y-coordinate of the bounding box.
6   frame. The frame that this annotation represents.
7   lost. If 1, the annotation is outside of the view screen.
8   occluded. If 1, the annotation is occluded.
9   generated. If 1, the annotation was automatically interpolated.
10  label. The label for this annotation, enclosed in quotation marks.
11+ attributes. Each column after this is an attribute.
Run Code Online (Sandbox Code Playgroud)

但也可以提供xml,json,pickle,labelme和pascal voc的输出

总而言之,这完全符合我的要求,也很容易使用.我仍然对其他选项感兴趣!


kil*_*gre 2

这是所有计算机视觉从业者都面临的问题。如果您认真对待这件事,有一家公司可以通过众包为您做到这一点。不过,我不知道是否应该在这个网站上放置一个链接。