在计算机视觉中,MVS做什么SFM不能做什么？

Question

在计算机视觉中,MVS做什么SFM不能做什么？

sme*_*eeb 9 computer-vision structure-from-motion

我是一名拥有大约十年企业软件工程的开发人员,我的业余爱好者引导我进入了庞大而可怕的计算机视觉领域(CV).

我不能立即明确的一件事是Structure with Motion(SFM)工具和Multi View Stereo(MVS)工具之间的分工.

具体来说,CMVS似乎是最佳的MVS工具,而Bundler似乎是最好的开源SFM工具之一.

摘自CMVS自己的主页:

您应该始终在Bundler之后和PMVS2之前使用CMVS

我想知道:为什么？!？我对 SFM工具的理解是它们为您执行3D重建,那么为什么我们首先需要MVS工具呢？他们添加了什么价值/处理/功能,像Bundler这样的SFM工具无法解决？为什么拟议的管道:

Bundler -> CMVS -> PMVS2

Run Code Online (Sandbox Code Playgroud)

？

Answer 1

Sor*_*vux 11

快速地说,Motion from Motion(SfM)和MultiView Stereo(MVS)技术是互补的,因为它们没有处理相同的假设.它们的输入也略有不同,MVS要求运行相机参数,这由SfM估算(输出).SfM仅提供粗略的3D输出,而PMVS2提供更密集的输出,最后CMVS用于规避PMVS2的一些限制.

答案的其余部分提供了每种方法如何工作的高级概述,并解释了为什么这样做.

来自Motion的结构

您突出显示的3D重建管道的第一步是SfM算法,可以使用Bundler,VisualSFM,OpenMVG等完成.该算法输入一些图像并输出每个图像的相机参数(稍后更多)以及场景的粗略 3D形状,通常称为稀疏重建.

为什么SfM仅输出粗糙的3D形状？基本上,SfM技术首先检测每个输入图像中的2D特征并在图像对之间匹配这些特征.例如,目标是告诉"这个桌角位于那些图像中的那些像素位置".这些功能由我们称之为描述符(如SIFT或ORB)描述.构建那些描述符以表示图像中的小区域(即,一堆相邻像素).它们可以表示可靠的高纹理或粗糙几何形状(例如,边缘),但是这些场景特征在整个场景中需要是唯一的(在某种意义上区分)才有用.例如(可能过于简化),具有重复图案的墙对于重建不是非常有用,因为即使它具有高度纹理,墙的每个区域都可能与墙上的其他任何地方相匹配.由于SfM使用这些特征执行3D重建,因此3D场景重建的顶点将位于那些独特的纹理或边缘上,从而给出粗网格作为输出.SfM通常不会在表面中间产生顶点而没有精确和区分纹理.但是,当在图像之间发现许多匹配时,可以计算图像之间的3D变换矩阵,有效地给出两个相机姿势之间的相对3D位置.

MultiView立体声

之后,MVS算法用于细化通过SfM技术获得的网格,从而产生所谓的密集重建.该算法要求每个图像的相机参数工作,这由SfM算法输出.因为它适用于更受约束的问题(因为它们已经具有每个图像的相机参数,如位置,旋转,焦点等),MVS将在描述符未正确检测(或无法正确)的区域上计算3D顶点或匹配.这就是PMVS2的作用.

PMVS如何在2D特征描述符难以匹配的区域上工作？由于您知道相机参数,因此您知道图像中的给定像素是另一图像中线条的投影.这种方法称为极线几何.虽然SfM必须通过每个描述符的整个2D图像来寻找潜在的匹配,但MVS将在单个1D线上工作以找到匹配,从而简化了问题.因此,MVS通常将照明和对象材料考虑到其优化中,而SfM则不然.

但是有一个问题:PMVS2执行非常复杂的优化,可能非常慢或在大图像序列上占用天文数量的内存.这是CMVS发挥作用的地方,将粗略的3D SfM输出聚集到区域中.然后将在每个集群上调用PMVS2(可能并行),从而简化其执行.然后,CMVS将在统一的详细模型中合并每个PMVS2输出.

结论

本回答中提供的大部分信息都可以在本教程中找到,来自CMVS和PMVS2的作者Yasutaka Furukawa:http: //www.cse.wustl.edu/~furukawa/papers/fnt_mvs.pdf

实质上,这两种技术都来自两种不同的方法:SfM旨在使用结构化(但未知的)图像序列执行3D重建,而MVS是基于人类立体视觉的双视图立体视觉的概括.

谢谢@Soravux (+1) - 我真的*希望*我能更多地支持这个答案！如果您不介意的话，我确实有一些后续问题要问您： **(1)** 稀疏重建（SFM 的输出）本身对任何事情都有用吗？或者它们是否总是用作 MVS 的输入（我想我只是想知道它们是否自己解决了任何有趣的问题）。**(2)** 我一直听到“**相机参数**”这个词……你能给我举一两个例子，其中一些参数可能是什么？ (3认同)
2) 相机参数包含在 Intrinsics 和 Extrinsics 相机矩阵中。两个矩阵都包含解释相机（内在）或其姿势（外在）的值（分别为 3x3 和 3x4）。例如，内在参数是两个轴上的焦距、相机的中心点（中心像素）、传感器尺寸、剪切量、径向失真等。外部矩阵描述了相机的位置和旋转（相机在世界上的位置以及它在看哪里）。查看我提供的参考资料的第 1.2 节以获取更多信息。 (3认同)
最后 **(3)** 根据 Bundler 人员的说法：“*您应该始终在 Bundler 之后和 PMVS2* 之前使用 CMVS”（因此，`Bundler >> CMVS >> PMVS2`）...但根据您的回答，听起来合适的管道是`Bundler/SFM >> Make Clusters >> 在每个集群上运行 PMVS2 >> 合并所有集群 >> CMVS`...这里有什么想法吗？再次感谢如此周到、彻底的回答！ (2认同)
有趣的问题。1) SfM 的关键要素是获取相机参数（见 2）。拥有它们后，您就可以开始_理解_您的场景（例如，使用 MVS）。如果您在 SfM 步骤之后停止，我会看到的优势是使用较少的计算能力（更快的输出/移动所需的能量更少），这在某些情况下可能会提供足够好的结果，例如粗略的体积估计或粗略的形状识别. 我想这取决于要执行的任务和要实现的目标。 (2认同)
关于相机参数的一些有趣细节：一旦你得到这两个矩阵，取世界中的任何 3D 点 [x, y, z]，将其乘以这些矩阵，结果就是 3D 点将出现在图像中的位置。3）别担心，我说的一切都由CMVS处理。PMVS2 现在包含在 CMVS 代码和可执行文件中。您必须将 Bundler 的导出器运行到 CMVS/PMVS2（我相信相同的可执行文件），然后仅使用正确的标志调用 CMVS，我所说的一切都会得到处理。我只是想告诉你为什么会这样。 (2认同)

归档时间：	9 年，9 月前
查看次数：	2661 次
最近记录：	9 年，9 月前