Ahm*_*kin 12 image-processing object-detection computer-vision
我一直在阅读关于对象(人类)检测的HOG描述符的理论.但我对实现有一些疑问,这可能听起来像一个微不足道的细节.
关于包含块的窗口; 如果窗口在每个步骤中窗口重叠的像素逐个移动,如下图所示:
或者应该移动窗口而不会导致任何重叠,如下所示: 
到目前为止,我看到的插图使用了第二种方法.但是,考虑到检测窗口的大小为64x128,很可能通过在图像上滑动窗口,不能覆盖整个图像.如果图像大小为64x255,则最后127个像素将不检查对象.所以,第一种方法似乎更合理,但是,更多的时间和CPU消耗.
有任何想法吗?先感谢您.
编辑:我试着坚持Dalal和Triggs的原始论文.可以在此处找到一篇实现该算法并使用第二种方法的论文:http://www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf
编辑:抱歉——我误解了你的问题。(此外,我对错误问题提供的答案是错误的——我已根据上下文在下面进行了调整。)
您询问的是使用HOG 描述符进行检测,而不是生成HOG 描述符。
在您上面引用的实现论文中,它们看起来与检测窗口重叠。窗口大小为 64x128,而他们使用 32 像素的水平跨度和 64 的垂直跨度。他们还提到他们尝试了更小的跨度值,但这导致了更高的误报率(在其实现的上下文中)。
最重要的是,他们使用输入图像的 3 个比例:1、1/2 和 1/4。他们没有提到检测窗口的任何相应缩放——我不确定从检测的角度来看这会产生什么影响。看来这也会隐含地造成重叠。
原答案(已更正):
查看 Dalal 和 Triggs 论文(第 6.4 节),看起来他们在生成 HOG 描述符时提到了 i) 无块重叠,以及 ii) 半块和四分之一块重叠。根据他们的结果,听起来更大的重叠产生了更好的检测性能(尽管资源/处理成本更高)。
| 归档时间: |
|
| 查看次数: |
4727 次 |
| 最近记录: |