ACM

一个CM通信

首页 / 杂志存档 / 2016年12月(第59卷第12期) / 使用3-Sweep从照片中提取3D物体 /全文

研究突出了

使用3-Sweep从照片中提取3D物体

文/陈涛，朱哲，胡世民，丹尼尔·科恩-奥尔，艾瑞尔·沙米尔
ACM通信，2016年12月，第59卷第12期，121-129页
10.1145 / 3007175
评论

认为: 打印手机应用程序一个CM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享在黑客新闻上分享在推特上分享在Facebook上分享

使用3-Sweep从照片中提取3D对象，插图 — 来源:iStockPhoto.com

我们介绍了一种交互式技术，提取和操作简单的三维形状在单一的照片。这种提取需要理解形状的组成部分、它们的投影以及它们之间的关系。这些认知任务对人类来说很简单，但对自动算法来说尤其困难。因此，我们的方法结合了人类的认知能力和机器的计算精度，创建了一个简单的建模工具。在我们的界面中，人类在照片上画三笔，生成一个3D组件，捕捉到形状的轮廓。每个笔画定义了组件的一个维度。这种人工协助隐式地将一个复杂的物体分割成其组成部分，并在空间中定位它们。计算机重新塑造组件，以适应照片中物体的图像，并满足由全局3D结构施加的组件之间的各种推断几何约束。我们展示了这个智能交互建模工具提供了快速创建可编辑3D部件的方法。一旦提取出3D对象，就可以快速编辑并将其放回照片或3D场景中，从而允许在图像空间中无法执行的对象驱动的照片编辑任务。

回到顶部

1.简介

就目前的技术水平而言，从一张照片中提取三维物体距离现实还有很长一段路要走，因为这涉及到许多复杂的任务:目标物体必须从其背景中分离出来，从其投影中识别其3D姿势、形状和结构。这些任务是困难的，甚至是不恰当的，因为它们需要对对象有一定程度的语义理解。为了减轻这一困难，可以将复杂的3D模型划分为可以从照片中提取的更简单的部分。然而，将部件组装成一个对象也需要进一步的语义理解，而且很难自动执行。此外，在将3D形状分解成各个部分之后，在最终的构图中还需要理解和维护各个部分之间的关系。

在这篇论文中，我们提出了一种交互式技术，利用人类和计算机的优势，从一张照片中提取3D人造物体。人类的感知能力被用于划分、识别和定位形状部件，使用基于笔画三联的非常简单的界面，而计算机则执行计算密集型或需要准确性的任务。我们的方法生成的最终对象模型包括它的几何和结构，以及它的一些语义。这使得提取的模型可以方便地用于智能编辑，从而维护形状的语义(参见图1)．

我们的方法是基于观察到许多人造物体可以被分解成更简单的部分，这些部分可以用广义圆柱、长方体或类似的原语表示。广义圆柱是一种圆柱形的原始形状，它的中轴是一条曲线而不是一条直线，形状的轮廓可以是任何2D闭合曲线，而不仅仅是一个圆，而且这个形状也可以沿着曲线变化。在这项工作中，我们只使用圆形和长方体轮廓。我们的方法的主要贡献是一个交互式工具，它通过定义原始部分来指导和帮助用户创建3D可编辑对象。该工具基于一个非常简单的建模手势，我们称之为3-Sweep。此手势允许用户使用三次扫描显式地定义几何原语的三维。前两个扫描定义2D轮廓的第一个和第二个维度，第三个扫描通常较长，用于定义原语的主曲线轴(参见图2)．

当用户扫描原语时，程序通过感知照片中的图像上下文动态调整渐进式轮廓，并自动捕捉到它。此外，各种原语部件之间的关系由程序自动识别和保存。使用几个这样的3-Sweep操作，用户可以建模与照片中的对象一致的3D部分，同时计算机自动维护全局约束，将它们链接到组成对象的其他原词。使用3-Sweep技术，非专业人员可以从照片中提取3D物体。这些物体可以用来构建一个新的3D场景，或者通过改变物体或它们的3D部分并将它们粘贴回照片来改变原始图像。

回到顶部

2.背景

从图像建模。图像一直是三维建模的重要资源。许多技术使用多个图像或视频来建模3D形状和场景。^20.然而，我们的重点是建模对象从单一的照片。这项任务具有挑战性，因为从三维世界到二维图像的映射具有固有的模糊性。为了克服这个问题，方法使用了对可使用的图像类型的约束(如非斜视)和对可提取的可能几何形状的预先假设。

全自动方法使用假设，比如对称性，²³平滑度,¹⁸或者存在与照片中相似的3D模型。²²有些将几何图形限制为平面或光滑的表面，而另一些则限制了应用范围(例如，建筑模型)^3.，10)．有一些方法可以使用优化来自动匹配图像或草图中的边缘或区域。¹⁵这些基本上都是2D方法，通过挤压生成2D模型或3D模型。我们的方法可以在三维空间中直接生成复杂的斜角形状，如在的烛台图1还有望远镜图7．自动方法在这样的例子中会失败，因为它们的先验假设不满足，或者因为它们依赖于区域颜色或清晰的边缘，这些可能会丢失或遮挡。

其他方法使用人在循环中建模，¹⁶但通常需要大量的手动交互，而且与3-Sweep方法相比更耗时。在机器控制优化过程之前，它们要么需要对象的完整草图，要么需要冗长的标签，而在3-Sweep中，用户指导和自动捕获是交错的。

Sketch-based建模。单幅图像的三维建模任务与从草图重建或定义三维形状密切相关。¹⁷用户可以直接绘制物体的曲线¹或将部件或原语贴合到预定义的草图中。¹²我们的工作灵感来自于Shtof等人提供的一种工具，该工具可以从草图中建模简单的3D对象。¹⁹在该工作中，在原始部件之间使用地理语义约束来定义它们的语义和几何关系，并将它们连接起来形成最终的对象。然而，他们的方法是面向草图的，并为需要适应草图轮廓的原语使用拖放界面。

计算机辅助设计。在计算机辅助设计中使用约束已经被广泛研究，它允许定义与对象中不同几何部分相关的语义信息。从物体或其部件的几何形状自动推断约束已被用于逆向工程⁵和对象变形和编辑。^11，21类似地，基于扫描的模型从一开始就被定义和使用。⁹虽然我们不能报告所有旨在建模基于扫描的原语的计算机辅助设计工作，但据我们所知，这些方法中没有一种被应用于从照片建模，也没有将扫描与捕获配对到图像边缘。

基于对象的图像编辑。除了建模3D对象，3-Sweep还允许应用基于对象的图像编辑操作，这在以前需要大量的用户交互⁸或者大量的数据收集。^13，14

回到顶部

3.概述

我们的交互式建模方法将单个照片作为输入，如在图1一个．我们的目标是提取一个投影与图像中的物体完全匹配的3D模型。使用3-Sweep建模技术，用户从对象的各个部分逐步构建整个对象。这意味着对象被隐式分解为简单的部分，这些部分通常具有语义意义。我们定义了两种类型的原语:都使用分段线性中心线来扫描截面，假设该截面在每个位置都垂直于中心线。一种类型的原语使用圆形截面，可以沿扫描方向改变半径，另一种使用矩形截面，可以沿扫描方向改变纵横比。

这种分解对用户来说既简单又直观，但为计算机提供了重要的信息，可以从各个部分的投影重建一个连贯的3D人造物体。这些部件应该具有典型的几何关系，可以用来指导整个物体的组成。尽管用户与给定的照片进行交互，但她不需要精确地将各个部分贴合到照片上或将它们彼此连接起来。3-Sweep自动抓拍基本部件到从边缘创建的对象轮廓，并将它们连接到之前定义的3D部件。

为了在给定的照片上创建一个单一的3D原始部分，设计师使用三笔画。前两笔定义了零件的2D轮廓，第三笔定义了它的主轴，它可以是直的，也可以是弯曲的图2)．定义轮廓和扫轴是简单的操作，因为它们不要求精度。轮廓尺寸由物体的轮廓指导。在扫描的同时，零件的3D范围也通过对这些轮廓的捕捉来定义。为了补偿透视失真，在这个过程中，估计相机的视角。因此，只需由用户快速随意地勾画出零件。图1 c展示了沿着烛台的管子扫过的结果(更多的例子可以在一个在线视频中看到https://vimeo.com/148236679)．我们将在第4节详细介绍3-Sweep操作。

随着更多的模型部件的添加，它们之间的几何关系(i)有助于消除歧义和定义深度尺寸(ii)优化部件的定位。这些几何关系包括平行性、正交性、共线性和共面性。我们使用优化来满足这些地理语义约束，同时考虑到物体轮廓的3D几何和用户的扫描输入。包含地理语义关系的完整模型如图所示图1 d．这些地理语义关系不仅有助于定义3D模型，而且成为模型的3D表示的一部分，允许稍后对3D模型进行智能编辑，如中所示图1 f还有报纸上的其他数字。

我们的接口还支持一些操作，以便更有效地建模。例如，用户可以复制并粘贴类似的部分到图像的其他位置。虽然许多地理语义约束是自动推断的，但用户也可以在选定的部分之间手动指定约束，约束部分具有统一或线性变化的半径等。

回到顶部

4.单一的原始的配件

在本节中，我们首先描述创建一个广义圆柱的3-Sweep技术。在我们的系统中，直接建模也支持更简单的原语，如球体或简单立方体。

预处理。在预处理阶段，提取图像边缘，建立候选对象轮廓。我们采用了一种基于谱聚类的层次边缘特征提取方法。²然后我们应用一种技术将检测到的边缘像素链接到连续的点序列中，⁷每个都用不同的颜色显示图1 b．在5 × 5邻域上计算的边缘方向与每个边缘像素相关联。

配置文件定义。在第一阶段，用户绘制广义圆柱的二维轮廓，通常在形状的一端。这在图3，其中黑色曲线为在输入图像中检测到的轮廓。该任务是绘制一个正确的面向3D的2D轮廓。这可以看作是通过在2D中绘制一个圆盘的投影来在3D中定位它。为了简化这个任务，我们假设圆盘是一个圆，从而减少了未知参数的数量。在三维重构的基础上，再将圆盘变形为椭圆盘。画圆盘是通过画两条直线来完成的年代₁年代₂而且年代₂年代_3.在图像上，如图所示图3一(红色和绿色箭头)。第一行定义磁盘的主直径，然后将第二行拖到小直径的末端。这在图像空间中形成了一个椭圆，与圆盘的投影相匹配:见图中的深蓝色圆图3一．硬盘深度设置为0。圆盘的法线方向和半径根据椭圆投影的两个直径的长度和方向来确定。

广义长方体也以类似的方式建模。定义长方体轮廓的两条描边沿着长方体基部的两条边，而不是圆盘的直径，如下面一行的红色和绿色线所示图2．

全面。完成基本轮廓后，用户将沿着近似于3D部分主轴的曲线进行扫描。一般来说，这条曲线应该垂直于3D原语的轮廓(见图中的蓝色箭头)图3一)．随着曲线的绘制，轮廓的副本被沿着曲线放置，每一个副本都被捕捉到物体的轮廓。

扫描时，轴曲线在二维图像空间中以5像素的均匀间距采样，生成3D采样点一个₀、……一个_N在一个平面上。在每个采样点一个_我，以曲线为中心创建一个轮廓的副本。它的法线与曲线的方向对齐一个_我它的直径经过调整，使其在图像上的投影符合物体的轮廓。总的来说，三维轮廓的调整副本沿着广义圆柱形成了一组离散的切片，如图所示图3 c．

每一点一个_我，我们首先从一个_我－1然后翻译成一个_我．然后我们旋转它，以考虑到曲线的弯曲。然后我们考虑主轴的两端(黄色的点在图3 b)，用p⁰_我，p¹_我．对于每个轮廓点p^j_我，jp^j_我， j∈[0,1]从点投射二维射线一个_我沿着主轴，寻找与物体轮廓的交点。找到正确的交叉点有点困难，因为图像可能包含许多边缘在新的轮廓附近。最近的边不一定是正确的边，例如，当碰到闭塞边时。在其他情况下，正确的轮廓可能完全丢失。为了处理这些情况，我们首先将交集的搜索限制在一个固定的范围内，这限制了相邻轮廓的长轴的长度变化不超过20%。其次，我们寻找一条与射线不共线的相交边(产生一个大于π/4的角)。尽管此方法不能保证它将找到正确的交叉点，但是后续的概要传播步骤可以容忍有限数量的缺失交叉点。

当找到交点时，我们抓拍轮廓点p^j_我到它。如果轮廓的两个轮廓点都被折断，我们调整的位置一个_我躺在它们的中点。如果只有一侧被成功折断，我们将这一侧的长度镜像到另一侧，并分别移动其他轮廓点。最后，如果两个轮廓点都没有被折断，前一个轮廓的大小被保留。

后处理。上面的建模步骤密切遵循用户手势，特别是在对概要文件建模时。这提供了对形状的更智能的理解，但准确性较低。因此，在对每个基元建模之后，我们应用一个后拍照阶段来更好地将基元与图像贴合以及校正视图。我们搜索小的转换(原始尺寸的±10%)和垂直角度的变化(±10°)，以创建更好的适合原始投影到边缘曲线在编辑过程中被捕捉到。

在许多情况下，建模的对象类型具有特殊的属性，可以用作约束建模的先验。例如，如果我们知道一个给定的部件有一个直的脊柱，我们可以限制扫描沿直线前进。类似地，我们可以限制扫描以保持恒定或线性变化的轮廓半径。在这种情况下，检测到的半径被平均或拟合到沿扫描的一条直线上。我们还可以将轮廓约束为正方形或圆形。事实上，单个原语可以包含具有不同约束的段:它可以从直轴开始，然后弯曲，或者只在特定部分使用恒定的半径。当边缘检测结果不佳时，这种约束非常有用。

为了进一步帮助建模交互，我们还提供了一个复制和粘贴工具。用户可以将已经抓拍的选定部分拖到图像中的新位置，并在新位置再次抓拍。在复制时，用户可以旋转、缩放或翻转部件。

回到顶部

5.复合对象构造

上面描述的技术生成符合对象轮廓的部分。这些零件在3D中的位置仍然是模糊和不准确的。然而，假设这些部分是一个连贯的人造物体的组成部分，它们之间存在语义几何关系。约束形状以满足这种关系允许创建有意义的模型。

由于每个部件都有很多自由度，在考虑其地理语义关系的情况下，直接对部件位置进行全局优化需要大量的计算，而且容易陷入局部极小值。在我们的设置中，建模的组件也被限制与图像中对象的轮廓一致。这些约束可以显著降低各部分的自由度，降低优化空间的维数，避免局部极小值。在接下来的讨论中，我们将描述如何简化一般定位问题，并确保满足3扫描部分之间的地理语义约束。

其关键思想是，如果一个零件的投影是固定的，它的位置和方向只能由一个或两个深度值确定。我们首先描述了可以用单个参数建模的简单部件的方法，即使用参数建模的部件直轴。一般的圆柱体和带曲线轴的长方体，稍后将在整个部分的开始和结束处使用任意连接的直轴原语进行近似。

确定直线的形状。广义圆柱的位置和方向我用直线轴可以由两点确定，我们称之为锚，C_我，1而且C_我，2，在其主轴上(见图4)．同样，一个长方体可以用六个锚C表示_ijj∈[1,6]，位于每个面的中心。每一对相对的锚点定义长方体的一个主轴。尽管4个锚足以固定长方体的位置和方向，但我们使用6个锚来简化将来自其他部分的各种地理语义约束附加到长方体的每一边。

我们使用用户为零件的三个维度定义的三个笔画，为每个零件定义一个局部3D正交坐标系。首先，我们定义了零件坐标系的原点我在一个参考点上R_我在零件的投影上。对于长方体部分，我们选择连接第一笔画和第二笔画的点，对于圆柱体部分，我们选择连接第二笔画和第三笔画的点。由于直线部分的内部正交性，该部分的轮廓垂直于主轴。因此，我们可以使用用户笔画的端点(在将它们捕捉到图像边缘之后)来定义三个点R_我创建一个正交系统(红色的点和线在图5)．注意，这个坐标系是在摄像机坐标中定义的。的x而且y端点的值由投影决定，它们的深度值可以作为的函数找到z_我,z的价值R_我，利用三个正交约束方程。

接下来，锚点的位置C_我,我用局部正交轴定义世界坐标，给出零件的结构我。因为局部轴只依赖于深度值z_我的点R_我，我们可以参数化的位置C_我,我作为z_我：C_我,我＝F_我,我（z_我):整个零件的位置和方向成为一个单一未知数的函数z_我．F_我,我的形式F_我,我（z_我) =b/ (一个（z_我+v)为每个坐标组件，其中一个只取决于x而且y局部轴端点的坐标，和b，v由透视参数决定。对于每个轴端点和每个坐标组件，它们是不同的(参见参考文献。⁶完整的定义)。

定义geo-semantic约束。我们使用锚点来定义部件之间的地理语义关系。具体来说，我们支持六种类型的约束:原始轴的并行性、正交性和共线性、轴的重叠端点、共面轴端点和共面轴。在建模过程中，对于每种类型，我们测试一对组件是否接近满足上述地理语义约束之一。如果是，我们将此约束添加到对象的定义中(参见图4)．例如，对于两个带索引的圆柱体米而且n，如果向量(C_米，1- - - - - -C_米，2)和(C_n，1- - - - - -C_n，2)小于15°时，我们添加一个并行度约束(C_米，1- - - - - -C_米，2) X (C_n，1- - - - - -C_n，2) = 0到约束系统。同样地，如果两个圆柱体的四个锚中的任何三个组成一个三角形，包含一个大于170°的角，我们添加共线轴约束:(C₁- - - - - -C₂) X (C₁- - - - - -C_3.) = 0。定义中还添加了内部约束，如长方体轴的正交性和同心度，一些编辑操作，如复制和粘贴部分(参见第6节)可以施加相同大小的约束。最后，我们还允许用户对所选原语部分手动执行或撤销任何约束。

建立一个目标函数。假设我们发现pgeo-semantic约束G_k对于一套n组件。结合拟合图像轮廓的目标函数，我们定义了如下优化系统:

在哪里米_我轴的个数是多少我原始的一部分。我们添加了重量w_我与各部分基本轮廓的半径及其轴的长度成正比。较大的部件对解决方案的影响更大，因为通常较大的部件建模更准确。直观地说，第一个方程试图拟合零件几何形状的投影(C_我,我)到图像轮廓和用户的手势，而第二组方程施加地理语义约束。

两步的解决方案。解C_我,我而且z_我这是一个具有非线性约束的非线性非凸优化问题。直接求解这样一个系统而不陷入局部极小值是非常困难的。因此，我们将解分解为两个步骤的过程。第一步尝试为所有部分同时找到一个良好的初始位置，只改变它们的深度(由z_我)，以满足地理语义约束。在第二步中，整个系统被求解，允许零件的形状(C_我,我)也要改变。

第一步，我们将式(1)中的软约束修改为硬约束，并进行替换C_我,我通过F_我,我（z_我)在所有方程中。这意味着(1)式是简单成立的，我们只剩下(2)式中的约束条件。实际上，这意味着我们固定投影并找到最优解z_我满足地理语义约束。这将变量的数量减少到n（z_我1≤我≤n)，将式(2)变为一个潜在的过定系统，其中每个方程只包含两个不同的变量。我们找到了最小二乘解利用共轭梯度法，得到z_我初始化为0的值。

第一步提供了一个很好的初始化，以便为其找到最优解C_我,我，应该接近F_我,我（)，只需要用地理语义约束来修正小的不一致。因此，在第二步中，我们利用(2)式中的约束集，利用增广拉格朗日方法对(1)式进行充分优化。这两个步骤都很快，并且我们能够通过第一步的初始化来避免局部极小值。这也允许以交互速度进行优化(参见参见https://vimeo.com/148236679)．注意到的非线性F_我,我()的产生是由于对透视投影的假设。然而，我们可以线性逼近这个投影，因为我们假设在z_我很小。这进一步提高了我们解决方案的速度和稳定性。

弯曲的形状。为了处理具有非直轴的零件，我们首先假设总轴在一个平面上，从而简化问题。我们将非直零件定义为两个直轴子零件的混合物，放置在零件的两端。每个子部件的位置由上面优化中的单个深度值决定。整个部分的这些部分之间的混合是通过用分段线性曲线连接两个子部分来定义的，其中坐标轴点是在用户扫描期间对剖面进行约束时确定的。更多细节可以在参考文献中找到。⁶

纹理。一旦对象已经建模，我们可以将纹理从图像映射到对象，如图所示图6．通过将网格的一个顶点投影到图像平面上，我们可以得到图像中顶点的二维坐标，然后将其用作纹理坐标，将图像的相应部分映射到模型上。因为没有关于物体背面的信息，我们简单地使用一个对称的假设，并将前面的纹理镜像到后面。在模型的每一半(前面和后面)，我们为两个顶点分配相同的纹理坐标，这两个顶点对称地镜像于中心平面。在物体的两侧(左和右)，有一些顶点的法线垂直于或几乎垂直于像平面。为了处理这样的顶点，我们将与它们相关的纹理视为孔，并使用图像补全技术⁴来填补。

回到顶部

6.实验结果

我们在一个简单的建模系统中用c++实现了3-Sweep交互技术。该系统提供了一个用于3-Sweep交互的大纲视图、一个实体模型视图和一个用于检查模型和图像编辑的纹理视图。用户可以使用一个按钮或快捷键在长方体、圆柱体和球体原语之间进行选择。该系统还提供常规菜单选择、视图控制和变形工具。正如我们在本节和在线视频中演示的那样，3-Sweep技术已经在大量照片上进行了测试和评估https://vimeo.com/148236679)．如视频所示，大多数例子的建模在几分钟或更短的时间内完成。建模过程是直观和流畅的，可以使用的非技术人员进行很少的培训。在建模之后编辑和重新定位对象需要类似于使用其他参数编辑技术的工作。

6.1.从单幅图像建模和编辑

在下面的例子中，我们展示了获取的3D纹理模型如何允许语义图像编辑。在编辑之前，3D模型的图像从照片中切割出来，留下一个黑洞，用标准的图像补全技术填充。⁴

图1 e演示了烛台的建模，然后旋转它的手臂以不同的角度保存对象的内部部分关系。注意，所有的烛台都有相同的尺寸，但由于斜视，它们的尺寸在照片中显得不同。在建模过程中，我们建模了一个烛台，并复制它以适应图像中的所有其他烛台，同时要求它们都位于同一平面上，并且它们的3D尺寸是相同的。这有效地恢复了每个零件的真实3D位置和形状。

图6显示几个建模结果。在最上面一行，我们显示输入照片，在中间行，我们显示提取和重新定位的3D模型，在第三行，它们与纹理被插入到相同或新的环境中。最右边的一列显示了在一张复杂的照片中三个物体的建模和重新定位。注意，烛台已经旋转，并在地平面上平移。

图7展示了三个在部分级别建模和编辑的示例，其中对象的某些部分(用金色突出显示)被复制、复制和可选旋转，以增强和丰富形状。左上角是一个水龙头，它的把手被增强为四边的，也可以旋转。整个水龙头也被复制并连接到墙的另一边。右上显示的是一盏路灯，其复制的灯移动到较低的位置并旋转。整个灯杆也被复制到街道上的其他位置。下面一行显示了在望远镜建模后对其进行的不同编辑操作。注意，不同的缩放因子被应用到不同的望远镜部件上。

在图8，我们展示了一个例子，其中使用两个输入照片创建一个对象的模型:巴黎的方尖碑。首先，方尖碑的基座从(a)中的近距离视图建模，允许更多的细节被捕获。部分3D模型然后移动到另一张照片，整个方尖碑是可见的，但基础是闭塞的。类似于复制和粘贴过程，用户将提取的基底放置在图像中，它与(b)中的图像轮廓相匹配。然后用户继续与其他部分进行建模过程。运输部分的纹理被混合，以匹配新图像中区域的阴影，以保持一致性:见旋转视图(c)。底座的细节可以在方尖碑最终模型的近景视图(d)中看到。

在图9，我们展示一张照片，照片上的物体都是从其他照片上模仿和复制的。网上视频(https://vimeo.com/148236679)显示了建模和编辑这些对象的过程。每个示例的建模和编辑时间如图所示表1，以及人工提供的地理语义约束的数量。斜视图中的对象通常需要更多的手动约束，其中大多数指定共面轴，这很难自动推断。

6.2.对比基于草图的建模

如第2节所述，我们的方法与Shtof等人的方法有一些相似之处，¹⁹它从草图中建模对象。我们在前面讨论了这些方法之间的主要区别。他们的系统是基于草图而不是照片，这使得假设零件周围有足够的边界曲线更容易。它依赖于标签，使用拖放隐喻来选择和定位原语，然后再用草图进行捕捉。我们根据他们的草图输入进行比较图10)，因为他们的方法无法处理本文给出的例子。比较建模时间可以看出，与我们的3-Sweep方法相比，草图标记和拖放抓取步骤明显更低效、更不直观。我们的建模时间(平均60秒)明显低于他们报告的技术时间(平均180秒)。

回到顶部

6.3.限制

我们的工作有几个局限性。首先，许多形状不能被分解成广义的圆柱体和长方体，也不能用我们的框架来建模(例如，在图1)．我们希望扩展可以使用类似原理建模的原语类型。3-Sweep还依赖于这样一个事实:被建模的对象包括部分之间的典型关系，如对称性、并行度和共线性。与此不同的是，更多形式自由的物体或部件需要手动定位。

即使对于广义圆柱，有时也会有模糊性。我们假设圆柱体的轮廓是均匀缩放的，并且不绕主轴旋转。这个假设并不总是满足的，如在图11 b．我们进一步假设主轴大部分是可见的，并且与观察平面平行。使用透视假设，我们可以处理少量的倾斜，但不能处理大量的倾斜。

该算法依赖于对物体边缘的良好检测，并假设物体的主体部分没有被遮挡。物体太小，如十字架在图6 e，或具有模糊边缘的对象，如中的示例图11 c很难精确建模。从理想的透视投影来看，照片本身往往有一些扭曲图11)，在建模前应进行校正。最后，我们的编辑假设一个简单的光照模型没有阴影。我们的系统目前不支持重新照明和阴影计算。

回到顶部

7.结论

我们提出了一种交互式技术，通过结合人类的认知能力和计算机的计算精度，可以从一张照片中建模三维人造物体。3-Sweep技术旨在允许从单幅图像中提取可编辑的模型。我们的技术可以支持的对象范围是由简单部分组成的对象，没有太多遮挡。正如我们所演示的，这个范围非常大，对于交互式建模非常有用——我们的测试表明，我们的方法可以在照片中建模各种各样的人造物体，也可以在草图中建模。可以以语义上有意义的方式编辑建模对象，既可以在原始图像中编辑，也可以在合成新图像中编辑。在未来，我们希望扩展原语的范围，并允许对自然物体更自由的形状建模。我们还希望在形状上添加对称和平滑约束。3-Sweep还可以扩展到多视图图像或视频建模，而不需要深度数据的帮助。应用演示主要是几何图形的编辑和操作，但恢复的三维模型和表面法线可以用于重新照明和材料编辑。

回到顶部

参考文献

1.Andre, A, Saito, S.基于单视图草图的建模。在第八届欧洲图形学基于草图的界面和建模研讨会论文集(SBIM’11)(2011)。ACM，美国纽约，纽约，133-140。

2.Arbelaez, P.， Maire, M.， Fowlkes, C.， Malik, J.轮廓检测和分层图像分割。IEEE反式。型。肛交。马赫。智能33。， 5(2011)， 898-916。

3.Arikan, M.， Schwärzler, M.， Flöry, S.， Wimmer, M.， Maierhofer, S. O-snap:建模体系结构的基于优化的snap。ACM反式。图。(衣服)32， 1(2013)， 6。

4.C.巴恩斯，E.谢赫特曼，A.芬克尔斯坦，D.高德曼。Patchmatch:一种用于结构图像编辑的随机对应算法。ACM反式。图。衣服28， 3(2009)， 24。

5.李志明，李志明，李志明，李志明。逆向工程中约束拟合的研究。第一版。帮助几何学。Des。19， 3(2002)， 173-205。

6.陈婷婷，朱志明，沙米尔，胡善明，陈婷婷，朱志明，胡善明，陈婷婷，朱志明，胡善明，陈婷婷，朱志明，胡善明。，Cohen-Or, D. 3sweep: Extracting editable objects from a single photo.ACM反式。图32。， 6(2013年11月)，1-195。

7.动画图像的曲线结构提取。在第五届和谐人机环境联席会议论文集(2009),这边是。

8.程美，张芳，Mitra, N，黄，X，胡，S. Repfinder:寻找用于图像编辑的近似重复的场景元素。ACM反式。图。(衣服)29日， 4(2010)， 83。

9.Choi B, Lee C.基于坐标变换和混合的扫面建模。第一版。降落凡间的Des。， 2(1990)， 87-96。

10.Debevec, P.E, Taylor, C.J, Malik, J.从照片中建模和渲染建筑:基于几何和图像的混合方法。在第23届计算机图形和交互技术年会论文集(SIGGRAPH '96)(1996)。ACM，纽约，纽约，美国，11-20。

11.加尔，索尔金，欧，米特拉，N，科恩-奥尔，D. iwires:一种分析和编辑的方法来操纵形状。ACM反式。图。(衣服)28(2009) 33。

12.Gingold, Y.， Igarashi, T.， Zorin, D.用于2d-to-3d建模的结构化注释。ACM反式。图。(衣服)28(2009) 148。

13.Goldberg C.， Chen T.， Zhang F.， Shamir, A.， Hu S.图像中数据驱动的对象操作。第一版。图。论坛31(2012) 265 - 274。

14.Lalonde, J.， Hoiem, D.， Efros, A.， Rother, C.， Winn, J.， Criminisi, A.照片剪辑艺术。ACM反式。图。(衣服)26(2007) 3。

15.Mille, J.， Boné， R.， Cohen, L.D.基于区域的二维可变形广义圆柱窄结构分割。在计算机视觉论文集- eccv 2008:第十届欧洲计算机视觉会议，福赛斯，D.，托尔，P.和齐瑟曼，A.(编)(马赛，法国，10月12-18日，第二部分，2008年)。施普林格，柏林，海德堡，392-404

16.哦，B.，陈，M.， Dorsey, J.， Durand, F.基于图像的建模和照片编辑。在第28届计算机图形与交互技术年会论文集(SIGGRAPH’01)(2001)。ACM，美国纽约，纽约，433-442。

17.Olsen, L.， Samavati, F.， Sousa, M.， Jorge, J.基于草图的建模:一个调查。第一版。图33。， 1(2009)， 85-103。

18.mr . Oswald, Toppe, E.， Cremers, D.曲面物体的快速和全局最优单视图重建。在2012年IEEE计算机视觉与模式识别会议(2012)。IEEE 534 - 541。

19.Shtof, A.， Agathos, A.， Gingold, Y.， Shamir, A.， Cohen-Or, D.基于草图建模的地球语义捕获。体积32。在Eurographics(2013), 245 - 253。

20.网络图片集的场景重建与可视化研究。IPSJ反式。第一版。愿景:3(2011), 44 - 66。

21.许，科，张，H，科恩-或，D，陈，B.适合和多样化:集进化为鼓舞人心的3d形状画廊。ACM反式。图。(衣服)31， 4(2012)， 57。

22.徐凯，郑海燕，张海燕，Cohen-Or, D.，刘亮，熊勇。基于照片的模型驱动的三维物体建模。ACM反式。图。(衣服)30(2011) 80。

23.薛涛，刘俊，唐旭。基于单幅图像的对称分段平面目标重建。在2011年IEEE计算机视觉与模式识别会议(2011)。IEEE 2577 - 2584。

回到顶部

作者

陈道（taochen@ee.columbia.edu特拉维夫&清华大学，以色列&清华大学，北京，中国。

丹尼尔cohen或者特拉维夫&清华大学，以色列&清华大学，北京，中国。

哲朱（ajex1988@gmail.com清华大学，中国北京。

Shi-Min胡（shimin@tsinghua.edu.cn清华大学，中国北京。

阿里尔沙密（arik@idc.ac.il跨学科中心，赫兹利亚，以色列。

回到顶部

脚注

本文的原始版本题为“3-Sweep:从一张照片中提取可编辑对象”，发表于ACM图形学汇刊，卷32，第6期-2013年ACM SIGGRAPH亚洲会议论文集2013年11月第195号

回到顶部

数据

图1。3-Sweep对象提取。(一)输入图像。(b)提取边缘。(c)对物体的一个组成部分进行3-掠建模。(d)完整提取的3D模型。(e)改变客体观点。(f)通过在不同方向旋转每个臂来编辑模型，并粘贴到一个新的背景上。物体的基底是通过alpha抠图和合成转移的。

图2。3-Sweep范式用于定义一般的圆柱体和长方体零件。

图3。通过定义2D轮廓线并沿对象的主轴(a)扫描来建模原语。沿中心线(b)复制轮廓线，并将副本快照到图像边缘(c)。

图4。在三个例子中，我们从这种关系“几乎”成立的原语中推断出地理语义约束:共线轴(左)、平行轴(右上)和垂直轴(右下)。

图5。确定坐标C_ij为长方体的轴端点从深度值z_我参考点R_我．

图6。建模不同的物体:桌子(a)，灯(b)，纪念碑(c)，茶炊(d)和烛台(e)。顶部:输入照片。中:提取的3D模型(蓝色)被旋转和重新定位。底部:插入到相同或新环境中的修改对象，以及它们的纹理。

图7。顶部:用于图像编辑的建模和复制部件。橙色部分被复制或变形。下:编辑望远镜。最左边的图片是原始照片。注意，不同部分的比例是不同的。

图8。用两张照片模拟巴黎方尖碑。上图:方尖碑的基座是近景模型，可以捕捉到更多细节。底部:(a)部分3D模型被传输到更远处的视图(其中基底的部分被遮挡)。(b)旋转纹理方尖碑;被运输部分的纹理被混合到它所占据的区域。(c)在新视图的特写中可以看到基座的细节。

图9。使用来自顶部图像条的源图像渲染的场景。

图10。建模从草图。输入草图取自Ref。¹⁹

图11。失败。(a)由于透视投影，在平行度约束下，桌腿无法与图像相接。(b)由于假设牙膏管的底部有均匀的结垢轮廓，所以不会被压扁。(c)由于瓶子投下的阴影造成边缘不清晰，导致抓拍失败。

回到顶部

表

表1。建模+编辑时间(以秒为单位)，以及为每个示例手动提供的地理语义约束(添加或删除)的数量。

回到顶部

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝，但不得为盈利或商业利益而复制或分发，且副本在首页上附有本通知和完整的引用。除ACM外，本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表，都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

没有发现记录

使用3-Sweep从照片中提取3D物体

1.简介

2.背景

3.概述

4.单一的原始的配件

5.复合对象构造

6.实验结果

6.3.限制

7.结论

参考文献

作者

脚注

数据

表

文章内容:

前谷歌科学家说管理我们生活的电脑剥削我们

人工智能正在引领一场新的科学革命

机器学习:出去!数据科学:!