ACM

ACM通信

首页 / 杂志存档 / 2011年10月(第54卷第10期) / 一日建成罗马 /全文

研究突出了

一日建成罗马

作者:Sameer Agarwal, Yasutaka Furukawa, Noah Snavely, Ian Simon, Brian Curless, Steven M. Seitz, Richard Szeliski
ACM通信，2011年10月，第54卷第10期，105-112页
10.1145/2001269.2001293
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit上分享在StumbleUpon上分享在黑客新闻上分享在推特上分享在Facebook上分享

古罗马竞技场 — 来源:http://grail.cs.washington.edu/rome/

我们提出了一个系统，可以从大量无组织的照片集合中重建3D几何，如在互联网照片共享网站上搜索给定城市(例如，罗马)所找到的照片。我们的系统是建立在一套新的分布式计算机视觉算法之上的，用于图像匹配和3D重建，旨在最大化管道的每个阶段的并行性，并根据问题的大小和可用的计算量优雅地扩展。我们的实验结果表明，现在有可能在不到一天的时间内重建超过10万张的城市规模的图像集合。

回到顶部

1.简介

业余摄影曾经很大程度上是个人事业。传统上，摄影师会用胶片捕捉一个瞬间，并与少数朋友和家人分享，也许会把几百张照片储存在一个鞋盒里。数码摄影的出现，以及最近照片分享网站的增长，例如Flickr.com，给摄影和图片集的使用带来了翻天覆地的变化。今天，一张在网上分享的照片可能会被数百万人看到。

因此，我们现在可以接触到大量的、不断增长的世界各地的照片，无数次地捕捉到世界各地的城市和地标。例如，在Flickr上搜索“罗马”，可以得到近300万张照片。这个收藏代表了一个日益完整的城市摄影记录，捕捉了每一个热门景点，façade，室内，喷泉，雕塑，绘画和café。事实上，人们在罗马发现的任何有趣的东西都是在无数的光照和天气条件下从数千个视角捕捉到的。例如，特莱维喷泉出现在5万多张照片中。

从这些照片中，有多少罗马城可以被三维重建?原则上，Flickr上的罗马照片代表了3D建模研究的理想数据集，因为它们以精致的细节和广泛的视角捕捉了城市的亮点。然而，从这样的集合中提取高质量的3D模型是具有挑战性的几个原因。首先，照片是非结构化它们没有特定的顺序，我们无法控制摄像机视点的分布。第二，他们是未校准这些照片是由数千名不同的摄影师拍摄的，我们对相机的设置知之甚少。第三,规模问题是巨大的，而之前的方法操作数百或最多几千张照片，我们寻求处理两到三个数量级的集合。第四，算法必须是快我们试图在一天内重建整个城市，使重建世界上所有重要的文化中心的过程重复多次成为可能。

建立精确的城市三维模型是一个很有意义和应用广泛的问题。在政府领域，城市模型对城市规划和可视化至关重要。它们对包括历史、考古学、地理学和计算机图形学研究在内的广泛学科都同样重要。数字城市模型也是流行的消费地图和可视化应用程序的核心，如谷歌地球和必应地图，以及支持gps的导航系统。在不久的将来，这些模型可以实现增强现实功能，识别和注释相机手机(或其他)显示器上的物体。这些功能将使游客能够找到感兴趣的景点，驾驶方向，并使自己适应一个新的环境。

城市尺度的三维重建在之前已经有过探索。^{2，8，15，21}然而，现有的大规模系统操作的数据来自结构化来源，例如，测绘飞机拍摄的航空照片或行驶车辆捕捉的街道图像。这些系统依赖于使用相同校准相机以固定采样率捕获的照片，通常利用其他传感器，如GPS和惯性导航单元，极大地简化了计算。从网络上获取的图像没有这些简化的特征。因此，我们工作的一个关键焦点是开发新的3D计算机视觉技术，在“野外”工作，在极其多样化、大型和无约束的图像集合上工作。

我们解决这个问题的方法建立在近年来计算机视觉的进展上(包括我们自己最近在照片旅游方面的工作)¹⁸而且Photosynth)，并借鉴了计算机科学的许多其他领域，包括分布式系统、算法、信息检索和科学计算。

回到顶部

2.运动中的结构

我们如何从图像集合中恢复三维几何?一个基本的挑战是，照片是二维的投影一个三维世界。反转这个投影是很困难的，因为我们失去了图像中每个点的深度。作为人类，我们闭上一只眼睛，注意到我们的深度知觉减弱，就能体验到这个问题。幸运的是，我们有两只眼睛，我们的大脑可以通过我们感知到的两幅图像之间的点的相关性来估计深度。这给了我们一些希望多个一个场景的照片，我们可以恢复那个场景的形状。

中所示的三个立方体的图像图1一个．我们不知道这些照片是在哪里拍摄的，我们也不知道先天的它们描绘了一个特定的形状(在本例中，是一个立方体)。然而，假设我们做知道在图像中看到的立方体的角，即3D角的2D投影，是对应的:我们知道具有相同颜色的2D点对应相同的3D点。这种对应关系为我们提供了一组关于摄像机和点的3D几何结构的强大约束。¹⁰表述这些约束的一种方法是，给定场景几何结构(用3D点表示)和摄像机几何结构(每个摄像机的3D位置和方向)，我们可以通过透视投影方程预测每个点的2D投影应该在每张图像中的什么位置;然后我们可以将这些预测与我们最初的测量结果进行比较。

具体地说,让X_我，我= 1,……，8denote the 3D positions of the corners of the cube and letR_j，c_j,f_j，j= 1,2,3表示三个相机的方向、位置和焦距。如果x_ij是图像的点吗X_我在图像j，我们可以将图像形成方程写成

投影函数为:(x，y，z) = (x/z，y/z)．的运动中的结构(SfM)问题是推断X_我，R_j，c_j,f_j从观察结果来看x_ij．

这样做的标准方法是将问题表述为一个优化问题，使总平方重投影误差最小:

在这里,我～j表示点X_我在图像中可见j．一个例子重建，说明重投影误差，显示在图1．虽然这个玩具问题很容易解决，(2)通常是一个困难的非线性最小二乘问题，有许多局部极小值，在大场景中有数百万个参数。第5节描述了我们用于大规模解决(2)的各种技术。

回到顶部

3.通信问题

在上面的立方体例子中，我们假设我们给出了输入图像之间的二维对应集合。在现实中，这些对应关系是没有给出的，也必须从图像中估计。我们如何自动做到这一点?这是对应问题。

为了解决两张图像之间的对应问题，我们可以考虑第一张图像中的每一个patch，然后在第二张图像中找到最相似的patch。然而，这种算法很快就会遇到问题。首先，许多图像补丁可能很难匹配。例如，一块清澈的蓝天在两张图像之间清晰地匹配是非常具有挑战性的，因为它看起来像任何其他的天空，也就是说，它不是截然不同的．第二，如果第二张照片是在一天中不同的时间或用不同的变焦级别拍摄的，会发生什么?

在过去的10年里，我们见证了算法的发展，这些算法可以拍摄一张图像，并在图像中检测出最独特的、可重复的特征。这样的特征检测器不仅减少了图像表示到更易于管理的大小，而且还产生了更健壮的匹配特征，对许多类型的图像转换不变。其中最成功的检测器之一是SIFT(尺度不变特征变换)。¹³

一旦我们检测到图像中的特征，我们就可以通过寻找相似的特征来匹配图像对中的特征。虽然穷尽匹配两幅图像之间的所有特征是非常昂贵的，但使用近似最近邻搜索已经得到了非常好的结果¹⁸；我们使用ANN库。^3.对于每一对图像，一个图像的特征被插入到k-d树和来自另一个图像的特征被用作查询。对于每个查询，如果ANN返回的最近邻居与下一个最近邻居的距离足够远，它就被声明为匹配。¹³

尽管SIFT特征具有尺度不变性和对外观变化的鲁棒性，但SIFT特征是当地的并且不包含关于图像或图像中其他特征位置的任何全局信息。因此，基于SIFT特征的特征匹配仍然容易产生误差。然而，由于我们假设我们处理的是刚性场景，匹配特征的位置有很强的几何约束，这些约束可以用来清除匹配。特别是当刚性场景被两个针孔摄像机成像时，存在一个3 × 3矩阵F,基本矩阵，使对应点x_ij而且x_本土知识(以齐次坐标表示)在两个图像中j而且k满足¹⁰：

施加这种约束的一种常见方法是使用贪婪随机算法生成适当选择的随机估计值F并选择匹配中支持度最大的一个，即满足(3)的匹配最多的一个。该算法称为随机样本共识(Random Sample Consensus, RANSAC)。⁶并被应用于许多计算机视觉问题中。

回到顶部

4.城市规模匹配

第3节描述如何查找一对图像之间的对应关系。然而，对于一个包含数万或数十万张图像的大集合，我们的任务是在整个集合中找到对应的图像。考虑图像匹配问题的一种方法是把它看作一个图估计问题我们得到一组与图像相对应的顶点我们想要找出连接它们的边的集合。在这张图中，当且仅当一对图像看着场景的同一部分，且它们之间有足够数量的特征匹配时，一条边将它们连接起来。我们称这个图为匹配图。

确定匹配图中的边集的一种简单方法是执行所有的边O（n²)图像匹配;然而，对于大型集合，这是不实际的。对于一组10万张图像，这转换为50亿次成对比较，如果500个核以每秒10张图像对的速度运行，则需要大约11.5天进行匹配，再加上在机器之间传输图像和特征数据所需的所有时间。此外，即使我们能够完成所有这些成对匹配，这也将是一种计算努力的浪费，因为绝大多数图像对不匹配，也就是说，图是稀疏的。我们希望整个城市的图像都是如此。

相反，我们的系统采用多轮方案:在每一轮中，我们在匹配图中提出一组边，然后通过特征匹配来验证每条边。如果我们发现超过最小数量的特征，我们就能保持优势;否则我们就丢弃它。因此，问题归结为制定一种快速预测两幅图像何时匹配的方法。我们使用两种方法生成建议:全图像相似度和查询展开。

4.1.全图相似度

一个自然的想法是提出一个紧凑的表示来计算整体相似，然后使用这个度量提出边缘测试。

对于文本文档，有许多快速比较两个文档内容的技术。一种常见的方法是将每个文档表示为加权单词频率的向量¹¹；两个这样的向量之间的距离可以很好地预测对应文档之间的相似性。

受文档分析工作的启发，计算机视觉研究人员最近开始将类似的技术应用于视觉对象识别，并取得了巨大成功。^{5，14，16，17}其基本思想是在一组照片中提取SIFT特征，并将它们聚为“视觉词”。通过将图像视为由这些视觉词组成的文档，我们可以应用文档检索机制来有效地匹配大量的照片数据集。我们使用一种快速的树状结构方法将视觉词与图像特征相关联。¹⁴每一张照片都被表示为一个稀疏的视觉词直方图，我们使用著名的“术语频率逆文档频率”(TFIDF)方法进行加权¹¹；我们通过取它们的内积来比较这两个直方图。对于每个图像，我们确定k₁+k₂多数图片相似，并验证顶部k₁这些。这形成了第一轮匹配的建议。

在这个阶段，我们有一个稀疏连接的匹配图。为了得到尽可能全面的重构，我们希望图中连接的组件尽可能少。为此，我们进一步利用来自整个图像相似度的建议，试图将图中各种连接的组件连接起来。对于每一个图像，我们考虑下一个k₂由整个图像的相似性暗示的图像，并验证那些跨越两个不同连接组件的对。我们只对大小为2或2以上的图像进行此操作。^c

4.2.查询扩展

在进行了两轮基于整幅图像相似度的匹配后，我们得到了一个稀疏匹配图，但这个图的密度通常不足以可靠地产生良好的重构。为了弥补这一点，我们使用了文本和文档检索研究中的另一种思想——查询扩展。⁵

在最初的形式中，查询扩展接受一组与用户查询匹配的文档，然后使用这些初始结果再次进行查询，扩大初始查询。最终的结果是这两个查询的组合。如果我们在文档集(包括查询)上定义一个图，其中包含由一条边连接的类似文档，那么查询展开相当于查找查询顶点两步内的所有顶点。

在我们的系统中，对于每个顶点j在匹配图中，如果顶点我而且k连接到j，我们建议我而且k也连接，并验证边缘(我，k)．这个过程可以重复固定的次数，或者直到匹配图收敛为止。

4.3.分布式的实现

我们现在考虑上述思想的分布式实现。我们的匹配系统分为三个不同的阶段:(1)预处理(章节4.3.1)，(2)验证(章节4.3.2)，和(3)轨迹生成(章节4.3.3)。系统运行在计算机(节点)集群上，其中一个节点指定为主节点，负责作业调度决策。

4.3.1.预处理和特征提取

我们假设图像在一个中央存储中可用，它们以固定大小的块按需分布到集群节点。每个节点对其图像进行固定大小的下采样并提取SIFT特征。这将自动执行负载平衡，功能更强大的节点接收更多的图像进行处理。这是唯一需要中央文件服务器的阶段;系统的其余部分不使用任何共享存储。

在这一阶段的最后，图像集(以及它们的特征)被划分为不相交的集合，每个节点一个集合。

4.3.2.验证与详细匹配

下一步是提出和验证(通过特征匹配)候选图像对，如第3节所述。

对于前两轮匹配，我们使用整个图像相似度(章节4.1)，对于接下来的四轮匹配，我们使用查询展开(章节4.2)。

如果我们把图像对应的TFIDF向量看作是一个巨大矩阵的行T，则评价整个图像相似度的过程等价于评价外部乘积年代＝TT．集群中的每个节点计算与其图像对应的行块，选择顶部k₁+k₂条目，并将它们报告给主节点。查询展开是一种简单而廉价的操作，我们可以让主节点生成这些建议。

如果所有的图像都位于一台机器上，验证每一对提议的图像将是一件简单的事情，即运行一组提议并执行SIFT匹配，也许要注意验证的顺序，以最小化磁盘I/O。然而，在我们的例子中，图像和特征分布在整个集群中。要求节点匹配图像对(我，j)可能需要它从集群的其他两个节点获取图像特征。由于网络传输速度和本地磁盘传输之间的巨大差异，以及为三个节点创建工作，这是不可取的。因此，候选边缘验证应该以尊重数据的局部性的方式分布在整个网络中。

我们尝试了许多方法，得到了令人惊讶的结果。最初，我们尝试在执行任何验证之前优化网络传输。在这种设置中，一旦主节点知道需要验证的所有图像对，它就会构建另一个连接共享一个图像的图像对的图。使用梅蒂斯人，¹²这个图被划分成计算节点的多少块。然后，通过解决一个线性分配问题，将向每个节点发送所需文件所需的网络传输数量最小化，将分区匹配到计算节点。

这种算法对小问题很有效，但对大问题就不行了。我们的假设是，验证每一对图像都需要相同的恒定时间，这是错误的;一些节点很早就完成了任务，并且空闲了长达一个小时。

我们的第二个想法是将图过度划分为小块，然后根据需要将它们分配到节点。当一个节点请求一个工作块时，它被分配到需要最少网络传输的那一块。这种策略实现了更好的负载平衡，但随着问题规模的增长，我们需要分区的图变得巨大，分区本身成为了瓶颈。

给出最佳结果的方法是使用一个简单的贪婪bin-packing算法，其中每个bin代表发送到一个节点的作业集。主节点维护每个节点上的映像列表。当一个节点请求工作时，它会遍历可用图像对列表，如果它们不需要任何网络传输，则将它们添加到bin中，直到bin已满或没有更多的图像对需要添加。然后它选择一个图像(特征向量列表)传输到节点，选择允许向bin中添加最大图像对数量的图像。重复这个过程，直到箱子装满。该算法的一个缺点是，它可能需要对所有剩余的图像对进行多次扫描:对于大型问题，这可能成为瓶颈。一个简单的解决方案是只考虑一个固定大小的图像对子集进行调度。该方法在实践中效果很好，我们的实验也采用了这种方法。

4.3.3.跟踪一代

到目前为止，我们一次只比较了两张图像。然而，当一个3D点在两张以上的图像中可见，并且与这个点对应的特征已经在这些图像中匹配时，我们需要将这些特征分组在一起，这样几何估计算法就可以从所有的特征中估计出一个3D点。我们称对应于单个3D点的一组特征为a特征跟踪（图2）;匹配过程的最后一步是将所有成对的匹配信息结合起来，以在图像之间生成一致的轨迹。

轨迹生成的问题可以表述为在一个图中寻找连接的组件的问题，其中顶点是所有图像的特征，边连接匹配的特征。由于匹配信息本地存储在计算匹配的计算节点上，因此轨迹生成过程是分布式的，分两个阶段进行。首先，每个节点从其本地匹配数据生成轨迹。这些数据在主节点上收集，然后通过网络广播到所有节点。其次，为每个节点分配匹配图的一个连接组件(可以独立处理所有其他组件)，并将该组件的轨迹拼接在一起。

回到顶部

5.城市规模SfM

轨迹生成后，下一步是在匹配图的每个连接组件上使用SfM算法来恢复每个轨迹的摄像机姿态和3D位置。

直接求解方程2是一个难的非线性优化问题。大多数用于无序照片收集的SfM系统都是增量式的，从一个小的重建开始，然后每次增加一些图像，对新点进行三角化，并进行一轮或多轮非线性最小二乘优化(称为束调整^20.)以减少重投影误差。重复此过程，直到无法添加更多图像为止。然而，由于我们藏品的规模，对所有照片一次运行这种增量的方法是不切实际的。

为了解决这个问题，我们观察到互联网照片收集本质上是多余的。许多照片是从附近的视点拍摄的(例如，斗兽场的正面)，处理所有的照片并不一定会增加重建。因此，最好是找到和重建一个极小的照片子集，捕捉场景的基本几何(称为一个骨骼设置在Snavely等人。¹⁹)．一旦这个子集被重建，剩下的图像可以通过估计每个相机的姿态与已知的3D点匹配的图像一步添加到重建中。这个过程的结果是一个数量级或更多的性能改进。

在将SfM问题简化到其骨架集之后，重构过程中的主要瓶颈是(2)使用束调整的解决方案。Levenberg Marquardt (LM)算法是求解束调整问题的首选算法;LM每次迭代的关键计算瓶颈是对称正定线性系统的解正规方程．

我们开发了新的高性能束调整软件，根据问题大小，在截断或精确步长LM算法之间选择。在第一种情况下，用预条件共轭梯度法近似求解法方程。第二个例子是CHOLMOD，⁴采用了一种计算Cholesky分解的稀疏直接方法。第一种算法每次迭代的时间复杂度较低，但使用了更多的LM迭代，而第二种算法每次迭代的收敛速度更快，但花费了更多的时间和内存。生成的代码使用的内存比最先进的方法少得多，运行速度快了一个数量级。运行时和内存节省取决于所涉及的线性系统的稀疏性。¹

回到顶部

6.多视图立体

SfM恢复相机姿势和3D点。然而，重构的3D点通常是稀疏的，只包含不同照片之间匹配良好的独特图像特征。三维重建的下一个阶段是使用多视图立体(MVS)算法获取配准图像并恢复密度和精确的模型。

MVS算法恢复3D几何信息的方式与我们的视觉系统通过融合两个视图感知深度的方式非常相似。在MVS设置中，我们可能有许多图像看到相同的点，可以潜在地用于深度估计。图3说明基本算法如何估计单个像素处的深度值。为了恢复一个密集的模型，我们估计每个图像中每个像素的深度，然后将得到的3D点合并到一个单一的模型中。

对于城市规模的MVS重建，由于过度的内存消耗，照片的数量远远超过了任何标准的MVS算法一次性操作的能力。因此，一个关键的任务是将照片分组成少量的可管理的大小的集群，每个集群都可以用来很好地重建场景的一部分。

具体地说，如果我们考虑SfM点作为密集MVS重构的稀疏代理，我们需要一个这样的聚类

每个SfM点从集群中的足够多的图像中可见。
集群总数较少。
每个集群的大小都被限制在某个阈值以下，该阈值由计算机的内存限制决定。

由此产生的聚类问题是一个有约束的离散优化问题(参见Furukawa等。⁹有关算法细节)。

聚类完成后，我们使用MVS算法独立求解每个聚类内的场景几何形状，然后将结果进行合并。⁹这种策略不仅可以执行重构，而且可以直接在多个处理器上并行执行重构。

回到顶部

7.实验

我们报告了在从Flickr下载的三个城市尺度数据集上运行我们系统的结果:杜布罗夫尼克、罗马和威尼斯。

SfM实验在一个拥有62个节点的双四核处理器的集群上运行，在一个拥有1GB/s以太网接口的私有网络上运行。每个节点都有32GB的RAM和1TB的本地硬盘空间，使用Microsoft Windows Server 2008 64位操作系统。为了将图像编码为TFIDF向量，我们使用了一组视觉词，这些词是从2万张罗马图像中创建的。用来创造视觉词汇的图像在任何实验中都没有使用。

图4显示这些数据集的最大连接组件的重构。由于空间的原因，这里只显示了结果的一个示例。完整的结果公布在http://grail.cs.washington.edu/rome．

对于整个图像的相似性提议，顶部k₁= 10分别用于第一个验证阶段和下一个验证阶段k₂= 10用于第二阶段的成分匹配。进行了四轮查询扩展。在所有情况下，执行的匹配数量与验证的匹配数量的比值在四轮之后开始下降。表1总结了三个数据集的统计数据。

SfM计时数表1请解释一下。令人惊讶的是，在杜布罗夫尼克运行SfM所花的时间比在罗马多得多，而且几乎与威尼斯相同，这两个数据集都要大得多。原因在于数据集的结构。罗马和威尼斯的布景本质上是地标的集合，大多具有简单的几何形状和可见结构。另一方面，杜布罗夫尼克最大的连接部分占据了整个老城。由于其复杂的可见度和广泛的不同观点，重建杜布罗夫尼克是一个更加复杂的SfM问题。这反映在与中所示的最大连接组件相关联的骨架集的大小上表2．

图4也显示了运行我们的MVS的结果⁹通过我们的匹配和SfM系统生成的城市规模重建。图4为圣彼得大教堂(罗马)，斗兽场(罗马)，杜布罗夫尼克和圣马可广场(威尼斯)的MVS重建(渲染为彩色点)，而表3提供计时和大小统计信息。

最大的数据集圣马可广场包含14000个输入图像，这些图像被处理成67个集群，在不到3小时的时间内产生了2800万个表面点。虽然我们的系统成功地为这些非常大的场景重建了密集和高质量的3D点，但我们的模型在某些地方包含孔。例如，图像覆盖差的屋顶，以及表面通常看不清楚的地面。另一方面，在图像多的地方，重建质量非常高，如在特写图4．

回到顶部

8.讨论

关于Flickr.com搜索关键词“罗马”或“罗马”会得到400多万张图片。我们的目标是在24小时内从这些照片中尽可能多地重建这座城市。我们目前的系统离这个目标还有一个数量级的距离。自从这项工作最初发表以来，Frahm等人已经建立了一个系统，使用gpu的大规模并行性在一个工作站上进行城市规模的重建。⁷

在我们的系统中，轨迹生成、骨架集和重构算法都是在连接组件的级别上运行的。这意味着最大的几个组件完全支配着这些阶段。我们目前正在探索并行所有这三个步骤的方法，特别强调SfM系统。

当前系统的另一个问题是它产生了一组断开连接的重构。如果图像带有地理标签/GPS信息，我们的系统可以尝试对重建进行地理定位。然而，这些信息经常是不正确的、有噪声的或缺失的。

匹配系统的运行时性能在很大程度上取决于验证作业在网络中的分布情况。这可以通过跨集群节点的初始映像分布来实现。根据用户名和图像的Flickr ID存储图像的早期决定意味着由同一用户拍摄的大多数图像最终会出现在相同的集群节点上。看看匹配图，结果是(事后看来很自然)用户自己的照片有很高的匹配概率。拍摄照片的人的身份只是与这些图像相关的元数据的一种。一种更复杂的策略是利用与图像相关的所有文本标记和地理标记来预测哪些图像可能匹配，并相应地分配数据。

最后，我们的系统设计考虑了批处理操作。一个更具挑战性的问题是使系统增量化。

致谢

这项工作部分得到SPAWAR、NSF拨款isi -0811878、海军研究办公室、华盛顿大学动画研究实验室和微软的支持。我们感谢微软研究院慷慨地为他们的HPC集群提供访问权限，并感谢Szymon Rusinkiewicz为Qsplat软件提供访问权限。作者还想感谢与史蒂文·格里布尔、亚伦·金博尔、德鲁·斯蒂利和大卫·尼斯特的讨论。

回到顶部

参考文献

1.阿加瓦尔，斯纳夫利，塞茨，s.m.，斯泽里斯基，R.大束调整。在大会(2)，卷6312计算机科学课堂讲稿(2010)。K. Daniilidis, P. Maragos和N. Paragios，编。施普林格，柏林，德国，2942。

2.全向图像网络的可扩展外部标定。Int。j .第一版。粘度49， 23(2002)， 143174。

3.艾利亚，S.，芒特，d.m.，内塔尼亚胡，n.s.，西尔弗曼，R.，吴，A.Y.。固定维度近似最近邻搜索的最优算法。J. acm 45， 6(1998)， 891923。

4.Chen Y.， Davis, T.A, Hager, W.W, Rajamanickam, S.算法887:CHOLMOD，超节点稀疏Cholesky分解和更新/调低。ACM反式。数学。Softw 35。， 3(2008)， 114。

5.Chum, O.， Philbin, J.， Sivic, J.， Isard, M.， Zisserman .完全回忆:基于生成特征模型的对象检索自动查询扩展。在ICCV(2007)， ieee, 18。

6.随机样本共识:模型拟合的范式及其在图像分析和自动制图中的应用。Commun。Assoc。比马赫24(1981), 381395。

7.弗拉姆,人类。，Georgel, P.F., Gallup, D., Johnson, T., Raguram, R., Wu, C., Jen, Y.-H., Dunn, E., Clipp, B., Lazebnik, S. Building Rome on a cloudless day. In大会(4)，卷6314计算机科学课堂讲稿(2010)。K. Daniilidis, P. Maragos和N. Paragios，编。施普林格，德国柏林，368381。

8.Früh, C, Zakhor, A.大规模、地面城市模型自动获取方法。Int。j .第一版。粘度60， 1(2004)， 524。

9.古川，Y.， Curless, B.， Seitz, s.m.， Szeliski, R.面向互联网规模的多视角立体。在CVPR(2010)， ieee, 14341441。

10.罗德岛的哈特利，罗德岛的齐瑟曼。计算机视觉中的多视图几何．剑桥大学出版社，英国剑桥，2003年。

11.术语特异性的统计解释及其在检索中的应用。J. Doc. 60， 5(2004)， 493502。

12.一种快速、高质量的不规则图划分多级方案。SIAM J. science。第一版。20， 1(1998)， 359392。

13.来自尺度不变关键点的独特图像特征。Int。j .第一版。粘度60， 2(2004)， 91110。

14.Nistér, D, Stewénius, H.具有词汇树的可扩展识别。在CVPR (2) (2006)， IEEE计算机学会，21612168。

15.波勒菲斯，M.，尼斯特，D.，弗拉姆，J.，阿克巴扎德，A.，莫尔多海，P.，克利普，B.，恩格斯，C.，盖勒普，D.，金，S.，梅雷尔，P.等。从视频中详细实时城市三维重建。IJCV 78， 2(2008)， 143167。

16.Schindler, G.， Brown, M.， Szeliski, R.城市尺度的位置识别。在CVPR(2007)， IEEE计算机学会。

17.视频谷歌:一种视频对象匹配的文本检索方法。在ICCV(2003), 14701477。

18.N. Snavely, Seitz, s.m.， Szeliski, R.照片旅游:探索3d照片收藏。ACM反式。图25。， 3(2006)， 835846。

19.N. Snavely, Seitz, s.m.， Szeliski, R.运动中有效结构的骨骼图。在CVPR(2008)， IEEE计算机学会。

20.特里格斯，P.麦克劳克兰，罗德岛哈特利，菲茨吉本，A.束调整现代综合。在视觉算法99(1999), 298372。

21.Zebedin, L.， Bauer, J.， Karner, K.F.， Bischof, H.融合基于特征和区域的信息，从航空图像建立城市建筑模型。在大会(4)，卷5305计算机科学课堂讲稿(2008)。D.A. Forsyth, P.H.S. Torr, A. Zisserman，主编。施普林格，德国柏林，873886。

回到顶部

作者

Sameer阿加瓦尔（sameeragarwal@google.com)，谷歌Inc.，华盛顿州西雅图。

Yasutaka古（furukawa@google.com)，谷歌Inc.，华盛顿州西雅图。

伊恩•西蒙（iansimon@microsoft.com)，微软公司，雷德蒙德，华盛顿州。

理查德Szeliski（szeliski@microsoft.com)，微软研究院，雷德蒙德，华盛顿州。

史蒂文·m·塞茨（seitz@cs.washington.edu)，谷歌公司和华盛顿大学，华盛顿，西雅图，华盛顿州。

布莱恩Curless（curless@washington.edu)，华盛顿大学，华盛顿西雅图，华盛顿州。

诺亚Snavely（snavely@cs.cornell.edu)，康奈尔大学，伊萨卡，纽约州。

回到顶部

脚注

a.这项工作是作者在华盛顿大学做博士后研究员时完成的。

b.部分工作是作者在华盛顿大学读研究生时完成的。

c.我们使用k₁＝k₂在我们所有的实验中= 10。

本文的原始版本发表在2009年IEEE计算机视觉国际会议论文集．

回到顶部

数据

图1。(a)一个立方体的三幅图像，从未知的视角。角落上用颜色编码的点显示了这些图像中某些2D点之间已知的对应关系;每组相同颜色的点都是同一个3D点的投影。(b) 3D点(较大的彩色点)和用于上图图像集合的摄像机的候选重建。集合中的每个图像都有一个相关联的位置和方向。这种重建与观测到的二维投影基本一致;当将红色的3D点投影到每张图像(用虚线表示)时，预测的投影与观测到的投影接近。在相机3的情况下，投影有一点偏离;得到的残差称为reprojection错误，是我们寻求最小化的。

图2。与中央雕像奥海诺斯(希腊神话中环绕世界的河流的化身)脸上的点相对应的轨迹。

图3。一个标准的基于窗口的多视图立体算法。给定一个像素和它周围的图像窗口，我们假设沿着它的观看射线有有限的深度。在每个深度，窗口被投影到其他图像中，在这些图像投影的纹理之间的一致性被评估。在真正的深度(用绿色突出显示)，一致性评分达到最大值。

图4。从左到右依次为输入图像样本、运动重建的结构和多视图立体重建。

回到顶部

表

表1。三个城市的匹配和SfM统计数据。

表2。三个数据集中连接的最大组件的重构统计信息。

表3。四个视图集群的MVS重构统计信息。

回到顶部

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝，但不得为盈利或商业利益而复制或分发，且副本在首页上附有本通知和完整的引用。除ACM外，本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表，都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

没有找到条目

一日建成罗马

1.简介

2.运动中的结构

3.通信问题

4.城市规模匹配

5.城市规模SfM

6.多视图立体

7.实验

8.讨论

参考文献

作者

脚注

数据

表

文章内容:

谷歌搜索的公开秘密

个人人工智能，一项将改变我们世界的新技术?

区块链到底是为了什么?