acm-header
登录gydF4y2Ba

ACM通信gydF4y2Ba

研究突出了gydF4y2Ba

削弱:将场景表示为视觉合成的神经辐射场gydF4y2Ba


乐高前端装载机gydF4y2Ba

图片来源:乐高汽车博客gydF4y2Ba

我们提出了一种方法,通过使用稀疏的输入视图集优化底层连续的体积场景函数,实现了综合复杂场景的新颖视图的最先进的结果。我们的算法使用全连接(非卷积)深度网络表示场景,其输入是单个连续的5D坐标(空间位置(gydF4y2BaxgydF4y2Ba,gydF4y2BaygydF4y2Ba,gydF4y2BazgydF4y2Ba)及观景方向(gydF4y2Baϑ,gydF4y2Ba),其输出是该空间位置的体积密度和视相关的辐射亮度。我们通过沿着相机光线查询5D坐标来合成视图,并使用经典的体绘制技术将输出的颜色和密度投影到图像中。因为体绘制是自然可微的,优化我们的表示所需的唯一输入是一组已知相机姿势的图像。我们描述了如何有效地优化神经辐射场,以渲染具有复杂几何形状和外观的场景的逼真的新视图,并演示了优于神经渲染和视图合成之前的工作的结果。gydF4y2Ba

回到顶部gydF4y2Ba

1.简介gydF4y2Ba

在这项工作中,我们以一种新的方式来解决长期存在的观点综合问题。视图合成是指根据给定的一组输入图像和它们各自的相机姿势绘制场景的新视图的问题。从新的视点产生逼真的输出需要正确处理复杂的几何和材料反射特性。针对这一问题,人们提出了许多不同的场景表示和绘制方法;然而,到目前为止,还没有人能够在一个大的相机基线上达到逼真的质量。我们提出了一种新的场景表示,可以直接优化以再现大量高分辨率的输入视图,并且仍然非常节省内存(参见gydF4y2Ba图1gydF4y2Ba).gydF4y2Ba

f1.jpggydF4y2Ba
图1。我们提出了一种从一组输入图像中优化场景的连续5D神经辐射场表示(任何连续位置的体积密度和视相关的颜色)的方法。我们使用来自体绘制的技术,沿着光线积累这个场景表示的样本,以从任何角度渲染场景。这里,我们可视化了合成的100个输入视图集gydF4y2Ba鼓gydF4y2Ba场景随机捕捉周围的半球,我们展示了两个新的视图渲染优化的NeRF表示。gydF4y2Ba

我们将静态场景表示为一个连续的5D函数,它在每个点(ϑ,)输出在每个方向发出的亮度(gydF4y2BaxgydF4y2Ba,gydF4y2BaygydF4y2Ba,gydF4y2BazgydF4y2Ba),以及每一点的密度,其作用类似于一个差的不透明度,控制通过(gydF4y2BaxgydF4y2Ba,gydF4y2BaygydF4y2Ba,gydF4y2BazgydF4y2Ba).我们的方法优化了没有任何卷积层(通常称为多层感知器或MLP)的深度全连接神经网络,通过从单个5D坐标(gydF4y2BaxgydF4y2Ba,gydF4y2BaygydF4y2Ba,gydF4y2BazgydF4y2Ba, ϑ,)到单个体积密度和视相关的RGB颜色。呈现这gydF4y2Ba神经辐射场gydF4y2Ba(NeRF)从一个特定的视角,我们:1)让相机光线穿过场景,生成一组采样的3D点,2)使用这些点和它们对应的2D观看方向作为输入到神经网络,产生一组输出的颜色和密度,3)使用经典的体积渲染技术,将这些颜色和密度积累到一个2D图像。因为这个过程是自然可微的,我们可以使用梯度下降来优化这个模型,通过最小化每个观察到的图像和根据我们的表示呈现的相应视图之间的误差。通过对包含真实底层场景内容的位置分配高体积密度和精确颜色,使跨多个视图的误差最小化,鼓励网络预测场景的连贯模型。gydF4y2Ba图2gydF4y2Ba可视化整个管道。gydF4y2Ba

f2.jpggydF4y2Ba
图2。概述了我们的神经辐射场场景表示和区分渲染程序。我们通过以下方法合成图像:沿着相机射线(a)采样5D坐标(位置和观看方向),将这些位置输入MLP以产生颜色和体积密度(b),并使用体积渲染技术将这些值合成到图像(c)。这个渲染函数是可微分的,因此我们可以通过最小化合成图像和地面真实观测图像之间的残差(d)来优化我们的场景表示。gydF4y2Ba

我们发现,优化复杂场景的神经辐射场表示的基本实现不能收敛到一个足够高的分辨率表示。为了解决这个问题,我们使用位置编码转换输入5D坐标,使MLP能够表示更高的频率函数。gydF4y2Ba

我们的方法可以表示复杂的现实世界的几何形状和外观,并且非常适合使用投影图像进行基于梯度的优化。通过将场景存储在神经网络的参数中,我们的方法克服了高昂的存储成本gydF4y2Ba离散gydF4y2Ba高分辨率建模复杂场景时的体素网格。我们证明,我们产生的神经辐射场方法在定量和定性上优于最先进的视图合成方法,例如将神经3D表示适合场景的方法,以及训练深度卷积网络(CNNs)预测采样体积表示的方法。本文提出了第一个连续的神经场景表示,它能够从自然环境中捕获的RGB图像中呈现真实物体和场景的高分辨率真实感新视图。gydF4y2Ba

回到顶部gydF4y2Ba

2.相关工作gydF4y2Ba

最近计算机视觉的一个很有前途的方向是用MLP的权重编码对象和场景,直接从3D空间位置映射到形状的隐式表示,如带符号的距离gydF4y2Ba3.gydF4y2Ba在这个位置。然而,到目前为止,这些方法还不能再现具有复杂几何形状的真实场景,不能像使用三角网格或体素网格等离散表示方法再现场景那样保真。在本节中,我们将回顾这两种工作方式,并将它们与我们的方法进行对比,我们的方法增强了神经场景表示的能力,从而为渲染复杂的现实场景产生最先进的结果。gydF4y2Ba

*gydF4y2Ba2.1.神经三维形状表示gydF4y2Ba

最近的工作研究了通过优化映射的深度网络,将连续的3D形状隐式表示为水平集gydF4y2BaxyzgydF4y2Ba坐标到有符号距离函数gydF4y2Ba15gydF4y2Ba或占用字段。gydF4y2Ba11gydF4y2Ba然而,这些模型受到地面真实三维几何数据访问的限制,通常从合成的三维形状数据集(如ShapeNet)获得。gydF4y2Ba2gydF4y2Ba后续工作通过制定可微绘制函数,允许仅使用2D图像对神经隐式形状表示进行优化,从而放宽了对地面真实3D形状的要求。尼迈耶等。gydF4y2Ba14gydF4y2Ba将曲面表示为三维占用场,并使用数值方法找到每条射线的曲面交点,然后使用隐式微分计算精确的导数。每个光线相交的位置作为神经3D纹理场的输入,预测该点的漫反射颜色。Sitzmann et al。gydF4y2Ba21gydF4y2Ba使用一种不那么直接的神经三维表示,简单地在每个连续的3D坐标上输出一个特征向量和RGB颜色,并提出一个可微的渲染函数,由一个循环神经网络组成,沿着每条射线走,以确定曲面的位置。gydF4y2Ba

虽然这些技术可以潜在地表示复杂和高分辨率的几何图形,但迄今为止,它们还局限于几何复杂度低的简单形状,导致渲染过度平滑。我们展示了一种优化网络的替代策略,编码5D亮度场(3D体积与2D视图相关的外观)可以代表更高的分辨率几何和外观,以渲染复杂场景的真实感新视图。gydF4y2Ba

*gydF4y2Ba2.2.视图合成和基于图像的渲染gydF4y2Ba

计算机视觉和图形界通过预测观察到的图像的传统几何和外观表征,在新的视图合成任务上取得了重大进展。一种流行的方法是使用基于网格的场景表示。gydF4y2Ba1gydF4y2Ba,gydF4y2Ba4gydF4y2Ba,gydF4y2Ba23gydF4y2Ba可微的光栅gydF4y2Ba9gydF4y2Ba或pathtracersgydF4y2Ba7gydF4y2Ba可以直接优化网格表示,用梯度下降法再现一组输入图像。然而,基于图像重投影的基于梯度的网格优化往往是困难的,可能是因为局部最小或较差的条件反射损失景观。此外,该策略需要在优化前提供一个固定拓扑的模板网格作为初始化,gydF4y2Ba7gydF4y2Ba这在不受约束的现实场景中通常是不可获得的。gydF4y2Ba

另一类方法使用体积表示来解决从一组输入的RGB图像合成高质量逼真视图的任务。体积方法能够真实地表示复杂的形状和材料,非常适合基于梯度的优化,并且往往比基于网格的方法产生更少的视觉干扰。早期的体积测量方法使用观察到的图像来直接为体素网格着色。gydF4y2Ba19gydF4y2Ba最近有几种方法gydF4y2Ba12gydF4y2Ba,gydF4y2Ba25gydF4y2Ba是否使用了多个场景的大型数据集来训练深度网络,从而从一组输入图像中预测采样的体积表示,然后使用阿尔法合成gydF4y2Ba16gydF4y2Ba或者学习沿着光线合成,以在测试时呈现新的视图。其他的工作已经针对每个特定场景优化了CNN和采样体素网格的组合,这样CNN可以补偿来自低分辨率体素网格的离散工件gydF4y2Ba20.gydF4y2Ba或者允许预测体素网格根据输入时间或动画控制而变化。gydF4y2Ba8gydF4y2Ba尽管这些体积测量技术已经在新的视图合成中取得了令人印象深刻的结果,但由于其离散采样的原因,它们缩放到更高分辨率图像的能力从根本上受到较差的时间和空间复杂性的限制——渲染更高分辨率的图像需要对3D空间进行更精细的采样。我们通过编码a来规避这个问题gydF4y2Ba连续gydF4y2Ba深度全连接神经网络的参数内的体积,这不仅产生比以前的体积方法更高的质量渲染,而且只需要那些存储成本的一小部分gydF4y2Ba采样gydF4y2Ba体积表示。gydF4y2Ba

回到顶部gydF4y2Ba

3.神经辐射场场景表示gydF4y2Ba

我们将一个连续的场景表示为一个5D向量值函数,它的输入是一个3D位置gydF4y2BaxgydF4y2Ba= (gydF4y2BaxgydF4y2Ba,gydF4y2BaygydF4y2Ba,gydF4y2BazgydF4y2Ba)和2D观看方向(ϑ,),其输出是一种发出的颜色gydF4y2BacgydF4y2Ba= (gydF4y2BargydF4y2Ba,gydF4y2BaggydF4y2Ba,gydF4y2BabgydF4y2Ba)和体积密度σ。在实践中,我们用三维笛卡尔单位向量来表示方向gydF4y2Bad。gydF4y2Ba我们用MLP网络来近似这种连续的5D场景表示gydF4y2BaFgydF4y2BaΘgydF4y2Ba:(gydF4y2Bax,维gydF4y2Ba) - (gydF4y2BacgydF4y2Ba, σ)和优化其权重Θ从每个输入5D坐标映射到其相应的体积密度和定向发射颜色。gydF4y2Ba

我们通过限制网络来预测体积密度σ仅作为位置的函数来鼓励表示是多视图一致的gydF4y2BaxgydF4y2Ba,同时允许RGB颜色gydF4y2BacgydF4y2Ba根据位置和观察方向来预测的。为了实现这一点,MLPgydF4y2BaFgydF4y2BaΘgydF4y2Ba首先处理输入的3D坐标gydF4y2BaxgydF4y2Ba具有8个全连接层(使用ReLU激活,每层256个通道),并输出σ和256维特征向量。这个特征向量然后与相机射线的观看方向连接,并传递到一个额外的完全连接层(使用一个ReLU激活和128个通道),输出视相关的RGB颜色。gydF4y2Ba

看到gydF4y2Ba图3gydF4y2Ba以我们的方法如何使用输入查看方向来表示非lambertian效果为例。所示gydF4y2Ba图4gydF4y2Ba训练的模型不依赖于视图(仅gydF4y2BaxgydF4y2Ba作为输入)很难表示投机性。gydF4y2Ba

f3.jpggydF4y2Ba
图3。视相关的发光亮度的可视化。我们的神经辐射场表示将RGB颜色输出为空间位置x和观看方向d的5D函数。在这里,我们在我们的神经表示中可视化了两个空间位置的方向颜色分布示例gydF4y2Ba船gydF4y2Ba现场。在(a)和(b)中,我们展示了来自两个不同摄像机位置的两个固定3D点的外观:一个在船的侧面(橙色插图),一个在水面(蓝色插图)。我们的方法预测了这两个3D点不断变化的镜面外观,在(c)中,我们展示了这种行为是如何在整个观察方向的半球连续地推广的。gydF4y2Ba

f4.jpggydF4y2Ba
图4。在这里,我们看到了我们的完整模型是如何从表示视相关的辐射亮度和通过高频位置编码传递输入坐标中获益的。删除视图依赖可以防止模型在推土机履带上重新生成镜面反射。去除位置编码大大降低了模型表示高频几何和纹理的能力,导致外观过度平滑。gydF4y2Ba

回到顶部gydF4y2Ba

4.使用亮度场进行体积渲染gydF4y2Ba

我们的5D神经辐射场表示场景为空间中任意一点的体积密度和定向发射的辐射。我们使用经典体绘制的原理来渲染任何穿过场景的光线的颜色。gydF4y2Ba5gydF4y2Ba体积密度σ(gydF4y2BaxgydF4y2Ba)可以解释为一条射线在某一位置处终止于无穷小粒子的微分概率gydF4y2Bax。gydF4y2Ba预期的颜色gydF4y2BaCgydF4y2Ba(gydF4y2BargydF4y2Ba)相机射线gydF4y2BargydF4y2Ba(gydF4y2BatgydF4y2Ba) =gydF4y2BaogydF4y2Ba+gydF4y2BatgydF4y2BadgydF4y2Ba有远近的界限gydF4y2BatgydF4y2BangydF4y2Ba而且gydF4y2BatgydF4y2BafgydF4y2Ba是:gydF4y2Ba

eq01.gifgydF4y2Ba

eq02.gifgydF4y2Ba

这个函数gydF4y2BaTgydF4y2Ba(gydF4y2BatgydF4y2Ba的累计透过率gydF4y2BatgydF4y2BangydF4y2Ba来gydF4y2BatgydF4y2Ba,也就是射线从gydF4y2BatgydF4y2BangydF4y2Ba来gydF4y2BatgydF4y2Ba不撞击其他粒子。从我们的连续神经辐射场渲染一个视图需要估计这个积分gydF4y2BaCgydF4y2Ba(gydF4y2BargydF4y2Ba),用于通过所需虚拟相机的每个像素跟踪相机射线。gydF4y2Ba

我们用求积法对这个连续积分进行数值估计。确定性求积法通常用于呈现离散体素网格,它将有效地限制我们表示的分辨率,因为MLP只会在固定的离散位置集上查询。相反,我们使用分层抽样的方法,将[gydF4y2BatgydF4y2BangydF4y2Ba,gydF4y2BatgydF4y2BafgydF4y2Ba到gydF4y2BaNgydF4y2Ba均匀间隔的箱子,然后从每个箱子内均匀随机抽取一个样本:gydF4y2Ba

eq03.gifgydF4y2Ba

虽然我们使用一组离散的样本来估计积分,但分层抽样使我们能够表示连续的场景表示,因为它导致在优化过程中在连续的位置评估MLP。我们用这些样本来估计gydF4y2BaCgydF4y2Ba(gydF4y2BargydF4y2Ba)与Max在体绘制回顾中讨论的求积法则gydF4y2Ba10gydF4y2Ba:gydF4y2Ba

eq04.gifgydF4y2Ba

eq05.gifgydF4y2Ba

其中δgydF4y2Ba我gydF4y2Ba=gydF4y2BatgydF4y2Ba我gydF4y2Ba+1gydF4y2Ba- - - - - -gydF4y2BatgydF4y2Ba我gydF4y2Ba为相邻样本间的距离。gydF4y2Ba

此函数用于计算gydF4y2Ba(gydF4y2BargydF4y2Ba)从(gydF4y2BacgydF4y2Ba我gydF4y2Ba,σgydF4y2Ba我gydF4y2Ba)值是微不足道的可微的,并减少到传统的阿尔法合成与阿尔法值σgydF4y2Ba我gydF4y2Ba= 1 - expgydF4y2Ba我gydF4y2BaδgydF4y2Ba我gydF4y2Ba).gydF4y2Ba

回到顶部gydF4y2Ba

5.优化神经辐射场gydF4y2Ba

在上一节中,我们已经描述了将场景建模为神经辐射场和从这个表示呈现新视图所需的核心组件。然而,我们发现这些组件不足以达到最先进的质量。我们引入了两个改进来实现高分辨率复杂场景的表示。第一种是输入坐标的位置编码,它帮助MLP表示高频函数。第二种是分层抽样程序,我们在这里就不描述了;详情见论文原文。gydF4y2Ba13gydF4y2Ba

*gydF4y2Ba5.1.位置编码gydF4y2Ba

尽管神经网络是通用函数逼近器,我们发现有了网络gydF4y2BaFgydF4y2BaΘgydF4y2Ba直接作用于gydF4y2BaxyzgydF4y2Baϑ输入坐标导致渲染在表示颜色和几何图形的高频变化方面表现不佳。这与Rahaman等人最近的研究一致,gydF4y2Ba17gydF4y2Ba这表明深度网络偏向于学习低频函数。他们还表明,在将输入数据传递给网络之前,使用高频函数将输入映射到更高的维度空间,可以更好地拟合包含高频变化的数据。gydF4y2Ba

我们在神经场景表征的背景下利用这些发现,并表明重新制定gydF4y2BaFgydF4y2BaΘgydF4y2Ba作为两个函数的组合gydF4y2BaFgydF4y2BaΘgydF4y2Ba=gydF4y2Bacacm6501_c.gifgydF4y2BaογgydF4y2Ba一个是学习到的,一个不是,显著提高了表现(见gydF4y2Ba图4gydF4y2Ba).这里γ是一个映射gydF4y2Bacacm6501_a.gifgydF4y2Ba进入高维空间gydF4y2Bacacm6501_b.gifgydF4y2Ba,gydF4y2Bacacm6501_c.gifgydF4y2Ba还是一个普通的MLP。形式上,我们使用的编码函数是:gydF4y2Ba

eq06.gifgydF4y2Ba

中的三个坐标值分别应用函数γ(·)gydF4y2BaxgydF4y2Ba(它们被归一化为[- 1,1])和笛卡尔视向单位向量的三个分量gydF4y2BadgydF4y2Ba(其构造为[- 1,1])。在实验中,我们设置gydF4y2BalgydF4y2Ba= 10的γ(gydF4y2BaXgydF4y2Ba),gydF4y2BalgydF4y2Ba= 4的γ(gydF4y2BadgydF4y2Ba).gydF4y2Ba

这种映射将在后续工作中进行更深入的研究gydF4y2Ba22gydF4y2Ba这表明了位置编码如何使网络更快地表示更高频率的信号。gydF4y2Ba

*gydF4y2Ba5.2.实现细节gydF4y2Ba

我们为每个场景优化了单独的连续神经体积表示网络。这只需要采集场景的RGB图像数据集、相应的相机姿态和内在参数以及场景边界(我们对合成数据使用地面真实相机姿态、内在和边界,并使用COLMAP结构-from-motion包)gydF4y2Ba18gydF4y2Ba为真实数据估计这些参数)。在每次优化迭代中,我们从数据集中所有像素的集合中随机抽取一批相机射线。我们查询网络在gydF4y2BaNgydF4y2Ba沿着每条射线随机点,然后使用第4节描述的体积渲染程序,使用这些样本渲染每条射线的颜色。我们所损失的只是渲染和真实像素颜色之间的总平方误差:gydF4y2Ba

eq07.gifgydF4y2Ba

在哪里gydF4y2BaRgydF4y2Ba是每批射线的集合吗gydF4y2BaCgydF4y2Ba(gydF4y2BargydF4y2Ba),gydF4y2Ba(gydF4y2BargydF4y2Ba)是地面真实和预测RGB颜色的射线gydF4y2Bar。gydF4y2Ba

在我们的实验中,我们使用了4096条射线的批大小,每条射线在gydF4y2BaNgydF4y2Ba= 192坐标。(这分为两个等级的“粗糙”和“精细”网络;详情见原文。gydF4y2Ba13gydF4y2Ba我们使用Adam优化器gydF4y2Ba6gydF4y2Ba学习速度从5 X 10开始gydF4y2Ba4gydF4y2Ba指数衰减到5 X 10gydF4y2Ba5gydF4y2Ba.对于单个场景的优化通常需要1-2天的时间在单个GPU上收敛。gydF4y2Ba

回到顶部gydF4y2Ba

6.结果gydF4y2Ba

我们定量(gydF4y2Ba表1gydF4y2Ba)和定性(参见gydF4y2Ba图5gydF4y2Ba而且gydF4y2Ba6gydF4y2Ba)表明我们的方法优于先前的工作。我们敦促读者观看我们附带的视频,以便更好地欣赏我们的方法在渲染新视图的平滑路径时比基线方法的显著改进。视频、代码和数据集可以在gydF4y2Bahttps://www.matthewgydF4y2Ba.gydF4y2Ba

f5.jpggydF4y2Ba
图5。使用基于物理的渲染器生成的新合成数据集场景的测试集视图比较。我们的方法能够恢复精细的细节在几何和外观,如gydF4y2Ba船的gydF4y2Ba索具,gydF4y2Ba乐高的gydF4y2Ba齿轮和踏板,gydF4y2Ba麦克风的gydF4y2Ba闪亮的支架和网格格栅,和gydF4y2Ba材料的gydF4y2Banon-Lambertian反射。LLFF展示带状文物gydF4y2Ba麦克风gydF4y2Ba站着gydF4y2Ba材料的gydF4y2Ba物体边缘和重影伪影gydF4y2Ba船的gydF4y2Ba桅杆和舱内gydF4y2Ba乐高gydF4y2Ba对象。SRN在每种情况下都会产生模糊和扭曲的渲染。神经卷无法捕捉细节gydF4y2Ba麦克风的gydF4y2Ba格栅或gydF4y2Ba乐高的gydF4y2Ba齿轮,它完全无法恢复几何形状gydF4y2Ba船的gydF4y2Ba索具。gydF4y2Ba

f6.jpggydF4y2Ba
图6。对真实场景的测试集视图进行比较。LLFF是专门为这个用例设计的(正向捕捉真实场景)。与LLFF相比,我们的方法能够在渲染视图中更一致地表示精细几何图形,如下所示gydF4y2Ba蕨类植物的gydF4y2Ba树叶,肋骨和栏杆gydF4y2Ba霸王龙。gydF4y2Ba我们的方法还正确地重建了LLFF努力渲染干净的部分遮挡区域,比如底部树叶后面的黄色架子gydF4y2Ba蕨类植物gydF4y2Ba作物和绿叶在底部的背景gydF4y2Ba兰花gydF4y2Ba作物。混合多个渲染也会导致LLFF中重复的边缘,如上图所示gydF4y2Ba兰花gydF4y2Ba作物。SRN捕捉到每个场景的低频几何和颜色变化,但无法再现任何精细的细节。gydF4y2Ba

t1.jpggydF4y2Ba
表1。我们的方法在定量上优于以往的工作,无论是在合成数据集和真实图像。gydF4y2Ba

*gydF4y2Ba6.1.数据集gydF4y2Ba

物体的合成渲染。gydF4y2Ba我们首先展示了两个对象合成渲染数据集的实验结果(gydF4y2Ba表1gydF4y2Ba“漫反射合成360°”和“现实合成360°”)。的DeepVoxelsgydF4y2Ba20.gydF4y2Ba数据集包含四个具有简单几何形状的Lambertian对象。从上半球采样的视点(479作为输入,1000作为测试),每个物体以512 X 512像素的像素进行渲染。此外,我们还生成了自己的数据集,包含八个对象的路径跟踪图像,这些对象展示了复杂的几何图形和现实的非lambertian材料。6个从上半球采样的视点渲染,2个从一个完整球体采样的视点渲染。我们渲染每个场景的100个视图作为输入,200个视图用于测试,都是800x800像素。gydF4y2Ba

复杂场景的真实图像。gydF4y2Ba我们展示了用大致面向前方的图像捕捉的复杂现实场景的结果(gydF4y2Ba表1gydF4y2Ba“真正的ForwardFacing”)。这个数据集由8个用手持手机捕获的场景组成(5个从本地光场融合(LLFF)论文中获取,3个我们捕获),用20到62张图像捕获,并拿出其中的1/8用于测试集。所有的图像是1008 X 756像素。gydF4y2Ba

*gydF4y2Ba6.2.比较gydF4y2Ba

为了评估我们的模型,我们将其与当前性能最好的视图合成技术进行比较。除了LLFF,所有的方法都使用相同的一组输入视图来为每个场景训练一个单独的网络,gydF4y2Ba12gydF4y2Ba它在大型数据集上训练单个3D CNN,然后在测试时使用相同的训练网络处理新场景的输入图像。gydF4y2Ba

神经卷(NV)gydF4y2Ba8gydF4y2Ba综合新颖的观点的对象,完全位于一个有限的体积前面的一个明确的背景(必须单独捕获没有兴趣的对象)。它优化了一个深度3D CNN,以预测一个离散的RGBα体素网格128gydF4y2Ba3.gydF4y2Ba样本以及32个三维扭曲网格gydF4y2Ba3.gydF4y2Ba样本。该算法通过移动摄像机光线通过扭曲的体素网格来呈现新颖的视图。gydF4y2Ba

场景表示网络(SRN)gydF4y2Ba21gydF4y2Ba将一个连续的场景表示为一个不透明的表面,由一个映射每个(gydF4y2Bax, y, zgydF4y2Ba)坐标到特征向量。他们训练一个循环神经网络,通过使用任意3D坐标上的特征向量来预测沿着射线的下一步大小,从而沿着场景表示中的射线前进。最后一步的特征向量被解码为表面上那个点的单一颜色。请注意,SRN是DeepVoxels性能更好的后续gydF4y2Ba20.gydF4y2Ba这就是为什么我们不包括与DeepVoxels的比较。gydF4y2Ba

LLFFgydF4y2Ba12gydF4y2Ba设计用于为采样良好的前向场景产生逼真的新颖视图。它使用训练好的3D CNN直接预测离散截锥采样的RGBα网格(多平面图像或MPI)gydF4y2Ba25gydF4y2Ba),然后通过alpha合成和混合附近的MPIs到新的视点呈现新的视图。gydF4y2Ba

*gydF4y2Ba6.3.讨论gydF4y2Ba

我们的性能完全超过了两个基线,这两个基线还在所有场景中优化了每个场景的单独网络(NV和SRN)。此外,我们在只使用它们的输入图像作为我们的整个训练集时,与LLFF相比,我们在质量和数量上都有更好的渲染效果(除了一个指标)。gydF4y2Ba

SRN方法产生了非常平滑的几何和纹理,并且它对视图合成的表征能力受到限制,因为每条相机射线只能选择单一的深度和颜色。NV基线能够捕获合理详细的体积几何和外观,但它使用的底层显式128gydF4y2Ba3.gydF4y2Ba体素网格阻止它在高分辨率下缩放以表示细节。LLFF专门提供了一个“采样指南”,以不超过64个像素的输入视图之间的差距,因此它经常不能在包含多达400-500像素的视图之间的差距的合成数据集中估计正确的几何。此外,LLFF混合不同的场景表现呈现不同的观点,导致感知分散不一致,这是我们的补充视频明显。gydF4y2Ba

这些方法之间最大的实际权衡是时间与空间。所有比较单一场景的方法都需要至少12个小时来训练每个场景。相比之下,LLFF可以在10分钟内处理一个小的输入数据集。然而,LLFF为每个输入图像产生一个大的3D体素网格,导致巨大的存储需求(一个“现实合成”场景超过15GB)。我们的方法只需要5MB的网络权值(与LLFF相比,相对压缩3000 X),这甚至比gydF4y2Ba仅输入图像gydF4y2Ba从我们的任何数据集中的一个场景。gydF4y2Ba

回到顶部gydF4y2Ba

7.结论gydF4y2Ba

我们的工作直接解决了之前使用mlp将对象和场景表示为连续函数的工作的不足。我们证明,用5D神经辐射场(MLP,输出体积密度和视相关的辐射亮度作为3D位置和2D观看方向的函数)表示场景,比以前训练深度cnn输出离散体素表示的主流方法产生更好的渲染效果。gydF4y2Ba

我们相信,这项工作在基于现实世界图像的图形管道方面取得了进展,其中复杂的场景可以由实际物体和场景图像优化后的神经辐射场组成。事实上,许多最近的方法已经建立在这项工作中提出的神经辐射场表示的基础上,并将其扩展到更多的功能,如重新照明、变形和动画。gydF4y2Ba

回到顶部gydF4y2Ba

致谢gydF4y2Ba

我们感谢Kevin Cao、Guowei Frank Yang和Nithin Raghavan的评论和讨论。RR承认来自ONR N000141712687、N000141912293、NSF Chase-CI和Ronald L. Graham主席的资助。管理学硕士由赫兹基金会奖学金资助,管理学硕士由美国国家科学基金会研究生奖学金资助。谷歌通过BAIR Commons项目提供了慷慨的云计算积分捐赠。我们感谢以下Blend Swap用户在我们的现实合成数据集中使用的模型:gregzaal (ship), 1DInc (chair), bryanajones (drums), Herberhold (ficus), erickfree(热狗),Heinzelnisse (lego), elbrujodelatribu (materials),和up3d.de (mic)。gydF4y2Ba

回到顶部gydF4y2Ba

参考文献gydF4y2Ba

1.Buehler, C., Bosse, M., McMillan, L., Gortler S., Cohen, M.非结构发光图渲染。在gydF4y2BaSIGGRAPHgydF4y2Ba(2001)。gydF4y2Ba

2.张a.x, Fhnkhouser, T., gubas, L., Hanrahan, P., Huang, Q., Li, Z., Savarese, S., Savva, M., Song, S., Su, H.等。ShapeNet:一个信息丰富的3D模型库。arXiv: 1512.03012(2015)。gydF4y2Ba

3.一种从距离图像建立复杂模型的体积法。在gydF4y2BaSIGGRAPHgydF4y2Ba(1996)。gydF4y2Ba

4.Debevec, P., Taylor, c.j., Malik, J.从照片建模和渲染建筑:一种基于几何和图像的混合方法。在gydF4y2BaSIGGRAPHgydF4y2Ba(1996)。gydF4y2Ba

5.Kajiya, j.t., Herzen, b.p.v射线追踪体积密度。gydF4y2Ba第一版。图。(SIGGRAPH)gydF4y2Ba(1984)。gydF4y2Ba

6.王志强,刘志强,刘志强:一种随机优化方法。在gydF4y2BaICLRgydF4y2Ba(2015)。gydF4y2Ba

7.李,T.-M。,Aittala, M., Durand, F., Lehtinen, J. Differentiable monte carlo ray tracing through edge sampling.ACM反式。图。亚洲(SIGGRAPH)gydF4y2Ba(2018)。gydF4y2Ba

8.Lombardi, S., Simon, T., Saragih, J., Schwartz, G., Lehrmann, A., Sheikh, Y.神经卷:从图像学习动态可渲染卷。gydF4y2BaACM反式。图。(SIGGRAPH)gydF4y2Ba(2019)。gydF4y2Ba

9.Loper, m.m., Black, M.J. OpenDR:一个近似可微分渲染器。在gydF4y2Ba大会gydF4y2Ba(2014)。gydF4y2Ba

10.用于直接体绘制的光学模型。gydF4y2BaIEEE反式。视觉。第一版。图。gydF4y2Ba(1995)。gydF4y2Ba

11.Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A.占用网络:学习函数空间的三维重建。在gydF4y2BaCVPRgydF4y2Ba(2019)。gydF4y2Ba

12.Mildenhall, B., Srinivasan, P.P., ortizs - cayon, R., Kalantari, N.K., Ramamoorthi, R., Ng, R., Kar, A.局部光场融合:具有规定采样准则的实用视野合成。gydF4y2BaACM反式。图。(SIGGRAPH)gydF4y2Ba(2019)。gydF4y2Ba

13.Mildenhall, B., Srinivasan, P.P, Tancik, M., Barron, J.T., Ramamoorthi, R., Ng, R. NeRF:将场景表示为视觉合成的神经辐射场。在gydF4y2Ba大会gydF4y2Ba(2020)。gydF4y2Ba

14.Niemeyer, M., Mescheder, L., Oechsle, M., Geiger, A.可微体绘制:在没有3D监督的情况下学习隐式3D表示。在gydF4y2BaCVPRgydF4y2Ba(2019)。gydF4y2Ba

15.Park, j.j., Florence, P., Straub, J., Newcombe, R., Lovegrove, S. DeepSDF:学习用于形状表示的连续符号距离函数。在gydF4y2BaCVPRgydF4y2Ba(2019)。gydF4y2Ba

16.Porter, T., Duff, T.合成数字图像。gydF4y2Ba第一版。图。(SIGGRAPH)gydF4y2Ba(1984)。gydF4y2Ba

17.Rahaman, N., Baratin, A., Arpit, D., Dräxler, F., Lin, M., Hamprecht, f.a., Bengio, Y., Courville, A.C.关于神经网络的光谱偏差。在gydF4y2BaICMLgydF4y2Ba(2018)。gydF4y2Ba

18.Schönberger, j.l., Frahm, j.m。Structure-from-motion再现。在gydF4y2BaCVPRgydF4y2Ba(2016)。gydF4y2Ba

19.Seitz, s.m., Dyer, C.R.用体素着色法重建逼真的场景。gydF4y2BaInt。j .第一版。愿景gydF4y2Ba(1999)。gydF4y2Ba

20.Sitzmann, V., Thies, J., Heide, F., Nießner, M., Wetzstein, G., Zollhöfer, M. Deepvoxels:学习持久的3D特征嵌入。在gydF4y2BaCVPRgydF4y2Ba(2019)。gydF4y2Ba

21.Sitzmann, V., Zollhoefer, M., Wetzstein, G.场景表示网络:连续三维结构感知的神经场景表示。在gydF4y2BaNeurIPSgydF4y2Ba(2019)。gydF4y2Ba

22.Tancik, M., Srinivasan, p.p., Mildenhall, B., Fridovich-Keil, S., Raghavan, N., Singhal, U., Ramamoorthi, R., Barron, j.t., Ng, R.傅里叶特征让网络在低维域学习高频函数。在gydF4y2BaNeurIPSgydF4y2Ba(2020)。gydF4y2Ba

23.Wood, d.n., Azuma, D.I, Aldinger, K., Curless, B., Duchamp, T., Salesin, D.H, Stuetzle, W. 3D摄影表面光场。在gydF4y2BaSIGGRAPHgydF4y2Ba(2000)。gydF4y2Ba

24.张r.p, Isola, P., Efros, A.A., Shechtman, E., Wang O.深度特征作为感知度量的不合理有效性。在gydF4y2BaCVPRgydF4y2Ba(2018)。gydF4y2Ba

25.Zhou, T., Tucker, R., Flynn, J., Fyffe, G., Snavely, N.立体放大:使用多平面图像学习视图合成。gydF4y2BaACM反式。图。(SIGGRAPH)gydF4y2Ba(2018)。gydF4y2Ba

回到顶部gydF4y2Ba

作者gydF4y2Ba

本·米尔登霍尔gydF4y2Ba(gydF4y2Babmild@cs.berkeley.edugydF4y2Ba),加州大学伯克利分校,加州伯克利,美国gydF4y2Ba

斯里尼瓦桑Pratul p .gydF4y2Ba(gydF4y2Bapratul@berkeley.edugydF4y2Ba),加州大学伯克利分校,加州伯克利,美国。gydF4y2Ba

马修TancikgydF4y2Ba(gydF4y2Batancik@berkeley.edugydF4y2Ba),加州大学伯克利分校,加州伯克利,美国。gydF4y2Ba

乔纳森·t·巴伦gydF4y2Ba(gydF4y2Babarron@google.comgydF4y2Ba),美国加州山景城谷歌研究中心。gydF4y2Ba

拉维RamamoorthigydF4y2Ba(gydF4y2Baravir@cs.ucsd.edugydF4y2Ba),加州大学圣地亚哥分校,拉霍亚,加州,美国。gydF4y2Ba

Ren NggydF4y2Ba(gydF4y2Baren@berkeley.edugydF4y2Ba),加州大学伯克利分校,加州伯克利,美国。gydF4y2Ba

Ben Mildenhall Pratul P. SrinivasangydF4y2Ba而且gydF4y2Ba马修TancikgydF4y2Ba对这项工作有同等的贡献。gydF4y2Ba

回到顶部gydF4y2Ba

脚注gydF4y2Ba

这篇论文的原始版本发表在gydF4y2Ba2020年欧洲计算机视觉会议论文集。gydF4y2Ba


版权由作者/所有者持有。gydF4y2Ba
向所有者/作者请求(重新)发布许可gydF4y2Ba

数字图书馆是由计算机协会出版的。版权所有©2022 ACM股份有限公司gydF4y2Ba


没有发现记录gydF4y2Ba

Baidu
map