计算机视觉中的多视几何:前言

| 研究学术  | 文献阅读  计算机视觉  多视几何第二版 

过去十年中,对计算机视觉中多视几何的认识和建模发展迅速。目前理论和实践已经成熟——对于十年前肯定未解决并通常认为无解的问题,已经卓有成效。这些任务和算法包括:

  • 给定两幅图像,没有其它信息,计算图像之间的匹配、点和摄像机的三维位置,点产生这些匹配,摄像机获取这些图像;
  • 给定三幅图像,没有其它信息,类似地计算点线图像之间的匹配、这些点和线与摄像机的三维位置;
  • 不需要标定物,计算双目装置(stereo rig)的极几何(epipolar geometry)、三目装置(trinocular rig)的三视几何(trifocal geometry);
  • 从自然场景的图像序列中,进行摄像机内部标定计算(也就是在线标定)。

未标定是这些算法的特色——不必知道或者不必首先计算摄像机的内参(比如焦距)。

支撑这些算法的是对未标定多视几何的崭新且更完善的理论认识:关联参数数目,呈现在视图中的点线间约束;以及从对应图像重建的摄像机和三维空间点。例如,确定双目装置的极几何只需指定7个参数,不需要摄像机标定。这些参数由相应的至少7个对应的像点确定。与这种非标定路线相反,十年前的标定路线是:每个摄像机首先会通过工程上精心标定的物体的图像进行标定,这些物体的几何关系已知。这种标定需要为每个摄像机确定11个参数。然后从这两组11个参数的数据中算出极几何。

该例子表明了未标定(射影)方法的重要性——采用恰当的几何表示,明确了每个计算阶段需要的参数,避免了计算对最终结果无用的参数,并得到了更简单的算法。此外,一个可能误解值得纠正。在未标定体系中,实体(例如三维空间点的位置)通常被恢复到准确定义的歧义中。这种歧义并不表示点被糟糕地估计。

更现实地说,标定摄像机通常不可能一劳永逸;例如摄像机在运动(位于移动的车辆上)或者内参在变化(变焦的监控摄像机)。此外,在某些情况根本得不到标定信息。设想从视频序列中计算摄像机的运动,或者从存档的电影片段中构建虚拟现实模型,其中运动和内部标定信息都未知。

由于我们理论认识的发展,而且还因为从图像估计数学对象的进步,在多视几何取得成就已成为可能。第一个进步是关注超定系统中应当被最小化的误差——无论它是代数的、几何的还是统计的。第二个进步是使用了鲁棒估计算法(比如RANSAC),使得估计不受数据中离群点影响。同时,这些技术已经催生了强大的搜索和匹配算法。

目前,我们可以认为重建中的许多问题已被解决。这些问题包括:

  1. 从对应的像点(image point correspondence)估计多焦张量(multifocal tensor),特别是基础矩阵(fundamental matrix)和三焦张量(四焦张量还未引起如此多的注意)。
  2. 从这些张量中提取出摄像机矩阵,并从双视图、三视图和四视图中进行随后的射影重建。

其它一些重要成就已经取得,尽管这些问题可能需要更多的探索。这些例子包括:

  1. 应用光束平差法(bundle adjustment),解决更一般的重建问题。
  2. 给定摄像机矩阵的最小假设,进行度量(欧几里德)重建。
  3. 自动检测图像序列的对应关系,并采用多焦张量关系消除离群点和误匹配。

路线方案。本书分为六部分,并有七个短附录。每部分介绍一种新的几何关系:背景的单映矩阵(homography),单视图的摄像机矩阵,双视图的基础矩阵,三视图的三焦张量,以及四视图的四焦张量。每种情况用一章描述该关系、它的性质和应用,并伴随一章描述从图像测量估计它的算法。估计算法包括从廉价简单的方法到最优的算法,这些最优算法目前认为是可用的最好算法。

第0部分:背景。这部分比其它部分更入门级。它介绍了二维空间和三维空间射影几何的中心思想(例如理想点和绝对圆锥曲线);可如何表示、操作和估计该几何;以及该几何如何联系到计算机视觉中的各种目标,比如通过矫正平面图消除透视失真。

第1部分:单视几何。在此,定义了各种摄像,建立了三维空间到图像的透视射影模型,探讨了其内部结构(anatomy)。描述了采用传统标定物技术估计它们,以及通过消失点(vanishing point)和消失线标定摄像机。

第2部分:双视几何。这部分描述了双摄像机的极几何,基于对应像点的射影重建,解决射影歧义的方法,最佳三角测量,基于平面的视图间转换。

第3部分:三视几何。在此,描述了三摄像机的三焦几何,包括:从双视图的一个对应点转换到第三点,对应线的类似转换;基于相应点和线的几何计算,摄像机矩阵的重建。

第4部分:N视几何。本部分有两个目的。首先,它把三视几何推广到四视图(一个小的扩展),并描述了适用于N视图的估计方法,例如:Tomasi和Kanade的因子化算法,从多幅图像同时计算结构和运动。其次,它涵盖了前面章节已提及的主题,但通过强化它们的共性能更全面和统一的认识它们,例如:推导了对应关系(correspondence)的多线性视图约束、自标定和消歧法。

附录。这里进一步描述了背景材料:张量、统计学、参数估计、线性和矩阵代数、迭代估计、稀疏矩阵系统的解和特殊射影变换。

致谢。我们从与同事的讨论和他们的思想中受益匪浅:Paul Beardsley、Stefan Carlsson、Olivier Faugeras、Andrew Fitzgibbon、Jitendra Malik、Steve Maybank、Amnon Shashua、Phil Torr、Bill Triggs。

若本书只有寥可胜数的错误,那么这要归功于Antonio Criminisi、David Liebowitz和Frederik Schaffalitzky,他们以极大的热情和奉献精神阅读了大部分内容,并提出了许多改进意见。同样,Peter Sturm和Bill Triggs都对很多章节提出了许多改进意见。我们感谢阅读了个别章节的其他同事:David Capel、Lourdes de Agapito Vicente、Bob Kaucic、Steve Maybank、Peter Tu。

我们特别感谢他们贡献了多幅图:Paul Beardsley、Antonio Criminisi、Andrew Fitzgibbon、David Liebowitz和Larry Shapiro;特别感谢他们贡献了一幅图:Martin Armstrong、David Capel、Lourdes de Agapito Vicente、Eric Hayman、Phil Pritchett、Luc Robert、Cordelia Schmid和在图片标题中直接致谢过的那些人。

我们感谢剑桥大学出版社David Tranah永不枯竭的意见和耐心,Michael Behrend出色的编辑工作。

重印版已经纠正了一少部分小错误,我们感谢以下读者将它们指出来:Luis Baumela、Niclas Borlin、Mike Brooks、Jun ho. Choi、Wojciech Chojnacki、Carlo Colombo、Nicolas Dano、Andrew Fitzgibbon、Bogdan Georgescu、Fredrik Kahl、Bob Kaucic、Jae-Hak Kim、Hansung Lee、Dennis Maier、Karsten Muelhmann、David Nister、Andreas Olsson、Stéphane Paris、Frederik Schaffalitzky、Bill Severson、Pedro Lopez de Teruel Alcolea、Bernard Thiesse、Ken Thornton、Magdalena Urbanek、Gergely Vass、Eugene Vendrovsky、Sui Wei和Tomáš Werner。

第二版。这个新的简装版经过扩展,包含了从2000年7月原始版本之后的一些进展,例如:目前本书涵盖了在场景中平面可见的投影情形,闭式因子化的解的新发现,并将仿射因子化扩展到了非刚性场景。我们也扩展了单视几何(第8章)和三视几何(第15章)的论述,并增加了关于参数估计的附录。

在准备第二版时,我们非常感谢那些提出改进和补充建议的同事,他们包括Marc Pollefeys、Bill Triggs,特别感谢Tomáš Werner,他贡献了出色而全面的评论。我们还要感谢Antonio Criminisi、Andrew Fitzgibbon、Rob Fergus、David Liebowitz,特别是Josef Šivic对新增材料部分的校对和极具价值的意见。一如既往,我们要感谢CUP的David Tranah。

本书中出现的图片可从http://www.robots.ox.ac.uk/~vgg/hzbook/index.html下载。该站点也包含了几个算法的Matlab代码,并列出了早期印刷版的勘误表。


打赏作者


上一篇:计算机视觉中的多视几何:序言(by Olivier Faugeras)     下一篇:计算机视觉中的多视几何:1. 简介——多视几何之旅