acm-header
登录

ACM通信

研究突出了

技术视角:视觉重建


接下来的页面拥有令人印象深刻的数字:496个处理器,总计1984 gb内存和62 tb磁盘,消化了近46万张罗马、威尼斯和杜布罗夫尼克的Flickr照片。2.5天后,处理器输出这些城市著名地标和纪念碑的详细三维几何和颜色。对计算机视觉研究人员来说,这些自动视觉重建在细节、大小和保真度上都是梦想成真,更不用提偶尔出现的间隙,这些间隙会给最终的场景带来一种淡淡的战争伤痕。

它花了几十年才走到今天。1959年,时任伦敦大学学院摄影测量学教授的埃德加·海因斯·汤普森(Edgar Hynes Thompson)为视觉重建的几何面最小实例计算出了代数:如果我们从不同视角拍摄同一场景的两张照片,五个世界点的图像坐标足以计算出点和相机在空间中的位置。为此,我们需要知道一张图像中的五个点在另一张图像中的位置,这一任务被称为点对应,在当时是由人工操作人员执行的。1934年,年轻的英国皇家工兵队长汤普森本人设计了一种带有参考网格和移动工作台的双显微镜——剑桥立体比较仪。一名凝视显微镜的操作人员写下了两张照片上对应点的坐标。这种精巧的仪器不仅满足了军事精确性:应用数学家很快证明,视觉重建在数值上是有问题的,因此需要极其精确的数据和精心校准的摄像机来产生合理的结果。

1981年,为了减轻这一困难,英国理论化学家和认知科学家休·克里斯托弗·朗格特-希金斯(Hugh Christopher Longuet-Higgins)开发了第一类算法,该算法使用大量的点对来解决视觉重建的近似但凸最小二乘版本。不幸的是,结果估计在统计上是不一致的,这意味着即使输入数据的数量无限增长,输出误差也不会消失。现代的解决方法是通过一种近似方法和鲁棒估计技术来计算初始解,以应对无处不在的数据异常值,然后通过数值和局部优化来优化解决方案。这种被称为束调整的改进,在大型但稀疏的矩阵上有效地运行,其技术可以追溯到1880年德国测地学家弗里德里希·罗伯特·赫尔默特(Friedrich Robert Helmert)基于图划分方法的嵌套分解启发式。幸运的是,束调整恢复了统计一致性,从而为通用图像的自动计算开辟了道路。

点对应的话题,视觉重建的另一个重大挑战,起源于数码相机的出现。人们很容易判断两张图片的细节是否相似,或者两张图片整体上描绘的是同一个场景。然而,计算机发现这两项任务都非常困难。1999年,英属哥伦比亚大学计算机科学教授David Lowe展示了如何很好地描述图像细节来计算点对应。与近似最近邻搜索的快速数据结构一起,Lowe的特征描述符是本文中视觉匹配的主力,也是计算机视觉中许多其他方面的主力。


在不同的天气、光照和曝光设置下,如何用未知的、不同的、未经校准的相机拍摄的图像进行视觉重建?


然而,面对前面提到的几何和对应的困难,这里描述的自动化、批量摄影测量似乎仍然是一个不太可能的成就。在不同的天气、光照和曝光设置下,如何用未知的、不同的、未经校准的相机拍摄的图像进行视觉重建?

在某种程度上,成功揭示了输入和计算一样多的信息。在一个有说服力的统计数据中,只有大约20%的输入图像最终被用于重建,其他的在处理管道的许多站点被丢弃:这个图像中的场景是否与集合中的其他图像匹配?这幅图像中的各个特征能否与其他图像的特征准确对应?生成的3D点云是否与计算出的相机位置一致?图像之间的颜色是否足够相似以允许纹理映射?一名普通学生进入名校的可能性,相当于一名高中生进入杜克大学(Duke)或康奈尔大学(Cornell)的可能性。因此,成功在一定程度上与一种相反的墨菲定律(Murphy’s Law)有关,这一定律似乎适用于大量的旅游照片:如果事情能顺利进行,它就会成功。如果需要高质量的照片,在相似的天气条件和曝光设置下拍摄,并从适当的独立视角拍摄,提供刚好合适的覆盖年龄,那么有足够多的照片,只要你知道如何找到这样的一套。

回到顶部

作者

卡洛预tomasi@cs.duke.edu)是杜克大学计算机科学教授和系主任。


©2011 acm 0001-0782/11/1000 $10.00

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2011 ACM, Inc.


没有找到条目

登录全面访问
忘记密码? »创建ACM Web帐号
文章内容:
Baidu
map