Ahm*_*kin 5 image-processing object-detection computer-vision
我正在研究HOG描述符,除了检测窗口的融合之外,我已经完成了大部分工作.
到目前为止我所做的是; 我建立了图像的尺度空间金字塔,并且对于每个尺度上的每个图像,我移动检测窗口(64x128)并检测人类.在每个图像中,一个人被多个窗口检测到.
所以问题是如何将所有这些窗口(假设一个人)融合到一个窗口中.Dalal建议人们应该使用强大的mod检测算法,例如均值漂移.但是,我有多个尺度......为了做到这一点,我应该首先估计在较低级别的尺度空间中找到的检测窗口的真实位置吗?
任何帮助表示赞赏.提前致谢.
我的解释是,均值漂移实际上会给你所建议的内容。
本质上,您首先根据检测器输出的强度以最粗略的尺度估计人的位置的概率分布。这可以为您提供稳健的模式估计。
然后,您可以使用最大值或众数周围的更精细尺度进行迭代细化。
例如,这个想法与金字塔 LK 跟踪中使用的非常相似。您还可以进行集成处理和/或粒子滤波器。