acm-headergydF4y2Ba
登录gydF4y2Ba

ACM通信gydF4y2Ba

研究突出了gydF4y2Ba

利用森林看树木:利用上下文进行视觉对象检测和定位gydF4y2Ba


森林中的树gydF4y2Ba

来源:iStockPhoto.comgydF4y2Ba

识别图像中的物体是计算机视觉研究的一个活跃领域。在过去的20年里,这方面取得了很大进展,已经有了在商业产品中运行的物体识别系统。然而,大多数用于检测对象的算法在图像中的所有位置和尺度上执行详尽的搜索,并将局部图像区域与对象模型进行比较。这种方法忽略了场景的语义结构,试图通过暴力解决识别问题。在现实世界中,对象倾向于与其他对象协变,从而提供了丰富的上下文关联集合。这些上下文关联可以用来减少搜索空间,只查找对象可能出现的地方;通过拒绝看起来像目标但出现在不可能的地方的模式,这也提高了性能。gydF4y2Ba

到目前为止,大多数建模尝试都是根据之前识别的其他对象来定义对象的上下文。这种方法的缺点是推断上下文变得和检测每个对象一样困难。另一种上下文视图依赖于整体地使用整个场景信息。这种方法在算法上很有吸引力,因为它不需要单独的对象识别的事先步骤。在本文中,我们使用一个概率框架来编码上下文和对象属性之间的关系,并展示了一个集成系统如何提供改进的性能。我们认为这是迈向通用机器视觉系统的重要一步。gydF4y2Ba

回到顶部gydF4y2Ba

1.简介gydF4y2Ba

视觉目标检测,例如在图像中寻找汽车和人物,是一项重要但具有挑战性的任务。它之所以重要,是因为其内在的科学兴趣(理解如何让机器看到可能会为生物视觉带来光明),也因为它对许多应用都很有用,如基于内容的图像检索、机器人等。这是具有挑战性的,因为物体的外观在不同的实例和不同的图像之间可能有很大的差异,这是由于姿势、照明、风格、关节、遮挡、低质量成像等因素的变化。gydF4y2Ba

在过去的20年里,使用机器学习技术的视觉目标检测取得了很大的进展。这些方法大多依赖于使用监督学习来训练分类器来区分对象类的实例和背景。然后将训练好的分类器应用于每个测试图像的数千个重叠小块或窗口,并返回高置信度检测的位置。每个patch内部计算出的特征通常是标准图像处理操作的输出,例如不同尺度和方向下Gabor滤波器响应的直方图。分类器本身是标准的监督学习模型,如支持向量机、神经网络或增强决策残端。gydF4y2Ba20.gydF4y2Ba

这种“滑动窗口分类器”技术在某些领域已经相当成功,例如检测汽车、行人和人脸。事实上,大多数当代数码相机都采用了这种技术来检测人脸,用来设置自动对焦。此外,一些汽车现在也配备了基于类似原理的行人检测系统。gydF4y2Ba

标准方法的一个主要问题是,当有许多类或类别时,即使每个类的假阳性率相对较低也可能是不可接受的。例如,如果每个检测器每10张图像产生大约1个虚警,有1000个类,那么每张图像将产生100个虚警。另外一个问题是,在每张图像上运行每个检测器可能会很慢。这些都是构建通用视觉系统的基本障碍。gydF4y2Ba

标准方法的虚警率相对较高的一个原因是,大多数目标检测系统都是“短视的”,也就是说,它们只观察图像的局部特征。一种可能的补救方法是利用图像的全局特征,并使用这些特征来计算每个对象类别存在的“先验”概率,如果存在,则计算其可能的位置和规模。以前的工作(例如,TorralbagydF4y2Ba17gydF4y2Ba)的研究表明,简单的全局图像特征,即图像的“要旨”,足以提供关于不同对象类别的存在和位置的可靠预测。这样的特性计算起来很快,并且同时提供了对许多类和位置有用的信息。gydF4y2Ba

在这篇论文中,这是我们之前工作的延伸,gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba17gydF4y2Ba我们提出了一种简单的方法,将标准滑动窗口对象检测系统(使用局部的“自底向上”图像特征)与基于全局(或“自顶向下”图像特征)预测对象类别的存在和位置的系统相结合。这些全局特征用于定义发生对象检测的上下文。语境的重要性在gydF4y2Ba图1gydF4y2Ba研究表明,当把同一个黑色“斑点”放在不同的环境中时,它可以被理解为桌子上的盘子或瓶子、手机、行人或汽车,甚至是一只鞋。另一个例子显示在gydF4y2Ba图2gydF4y2Ba:就很容易推断出,在图像被涂黑的区域后面很可能有一台电脑显示器。gydF4y2Ba

我们不是第一个指出上下文在计算机视觉中的重要性的人。例如,Strat和Fischler在他们1991年的论文中强调了它的重要性。gydF4y2Ba16gydF4y2Ba然而,我们的方法与之前的工作有两个关键区别。第一,在早期的工作中,如gydF4y2Ba16gydF4y2Ba这些系统由手工设计的ifthen规则组成,而最近的系统则依赖于与数据吻合的统计模型。其次,大多数其他方法根据其他对象定义上下文gydF4y2Ba6gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba18gydF4y2Ba;但这引入了一个先有鸡还是先有蛋的问题:要检测类型1的对象,首先必须检测类型2的对象。相比之下,我们提出了一种分层的方法,在这种方法中,我们根据整个场景类别来定义上下文。这可以通过全局图像特征可靠地推断出来。基于场景类别,我们假设对象是独立的。虽然这不是严格意义上的正确,但这是一种简单而有效的方法,如下所示。gydF4y2Ba

在接下来的部分中,我们将描述模型的不同组件。首先,我们将展示如何在不使用对象作为中间表示的情况下表示上下文信息。然后,我们将展示如何将该表示与对象检测器集成在一起。gydF4y2Ba

回到顶部gydF4y2Ba

2.全局图像特征:图像的要点gydF4y2Ba

同样地,不需要将物体分解为一组可命名的部分就可以识别物体(例如,最成功的人脸探测器不会先尝试检测眼睛和嘴巴,而是搜索语义意义较低的特征),场景也可以在不需要将其分解为物体的情况下被识别。这样做的好处是,它提供了一个额外的信息源,可用于为对象识别提供上下文信息。正如《奥利瓦和斯琴斯》《奥利瓦和托拉尔巴》中提到的,gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba可以绕过对象标识构建场景的全局表示,在这种表示中,场景被表示为单个实体。最近在计算机视觉方面的工作强调了全局场景表示对场景识别的重要性gydF4y2Ba1gydF4y2Ba,gydF4y2Ba7gydF4y2Ba,gydF4y2Ba11gydF4y2Ba作为上下文信息的来源。gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba17gydF4y2Ba这些表示是基于在固定图像区域上的低层次特征(类似于早期视觉领域的表示,如定向边缘、矢量量化图像补丁等)的统计计算。全局图像表示的一个例子是要点描述符。gydF4y2Ba11gydF4y2Ba主旨描述符是一个特征向量gydF4y2BaggydF4y2Ba,其中每个个体的特征gydF4y2BaggydF4y2BakgydF4y2Ba计算为gydF4y2Ba

eq01.gifgydF4y2Ba

其中⊗表示图像卷积,×是像素级的乘法。gydF4y2Ba我gydF4y2Ba(gydF4y2Bax, ygydF4y2Ba)为输入图像的亮度通道,gydF4y2BahgydF4y2BakgydF4y2Ba(gydF4y2Bax, ygydF4y2Ba)是来自一组多尺度定向Gabor滤波器(六方向四尺度)的滤波器,和gydF4y2BawgydF4y2BakgydF4y2Ba(gydF4y2Bax, ygydF4y2Ba)是一个空间窗口,它将计算每个滤波器在不同图像位置的平均输出能量。窗户gydF4y2BawgydF4y2BakgydF4y2Ba(gydF4y2Bax, ygydF4y2Ba)将图像划分为4 × 4不重叠窗口的网格。这样就得到了一个维数为4 × 4 × 6 × 4 = 384的描述符。gydF4y2Ba

图3gydF4y2Ba说明由要旨描述符保留的信息量。中间一列显示了一个极图上多尺度定向滤波器输出幅度的平均值(注意,每个图的方向与图像中边缘的方向正交)。将图像分割为4 × 4个窗口,局部计算每个滤波器的平均响应。每个不同的尺度都用颜色编码(红色表示高空间频率,蓝色表示低空间频率),强度与每个滤波器输出的能量成正比。为了说明这种表示所保留的信息量,右列gydF4y2Ba图3gydF4y2Ba使用Heeger和Bergen的纹理合成方法,显示了被强制具有与目标图像相同的主旨特征的噪声图像。gydF4y2Ba2gydF4y2Ba如gydF4y2Ba图3gydF4y2Ba,主旨描述符提供了图像中出现的纹理及其空间组织的粗略描述。主旨描述符保留了将场景分类所需的相关信息(例如,将图像分类为海滩场景、街道或客厅)。据夸托尼和托拉尔巴报道,gydF4y2Ba12gydF4y2Ba当试图区分15个不同的场景类别时,主旨描述符正确地分类了75%的图像。识别图片所描述的场景本身就是一项重要的任务,此外,它还可以用于提供强大的上下文先验,我们将在下一节中讨论这一点。gydF4y2Ba

回到顶部gydF4y2Ba

3.联合场景分类和目标检测gydF4y2Ba

在本节中,我们将更详细地描述我们的方法。在3.1节中,我们简要描述了使用局部特征进行目标检测和定位的标准方法。在3.3节和3.2节中,我们分别描述了如何使用全局特征进行目标定位和检测。在第3.4节中,我们将讨论如何集成这些局部和全局特性。局部和全局特性的性能比较将推迟到第4节。gydF4y2Ba

*gydF4y2Ba3.1.使用局部特征进行对象存在性检测和定位gydF4y2Ba

在我们之前的论文中,gydF4y2Ba9gydF4y2Ba我们考虑检测四种不同类型或类别的物体:汽车、人、键盘和屏幕(计算机显示器)。在本文中,为了简洁起见,我们将主要关注汽车。我们使用LabelMe数据集的一个子集gydF4y2Ba11gydF4y2Ba,gydF4y2Ba15gydF4y2Ba进行训练及测试(详情载于第4节)。gydF4y2Ba

我们要处理两个任务:对象存在检测(目标是预测对象在图像中是否存在,即回答这个问题:这个图像中是否有汽车?)和对象定位(目标是精确定位每个图像中对象类的所有实例)。即使对象定位不准确,也可以解决对象存在性检测任务。gydF4y2Ba

我们可以将目标存在检测和定位问题形式化如下。让gydF4y2BaPgydF4y2BatgydF4y2Ba如果有一个或多个类型对象,则= 1gydF4y2BatgydF4y2Ba出现在图像的任何地方,和gydF4y2BaPgydF4y2BatgydF4y2Ba否则= 0。客体的目的gydF4y2Ba存在检测gydF4y2Ba是估计概率吗gydF4y2BapgydF4y2Ba(gydF4y2BaPgydF4y2BatgydF4y2Ba= 1 |gydF4y2Ba我gydF4y2Ba),gydF4y2Ba我gydF4y2Ba是图像。稍后,我们将通过尝试估计可能出现的对象类的实例数量来稍微概括这一点,gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2BatgydF4y2Ba|gydF4y2Ba我gydF4y2Ba),gydF4y2BaNgydF4y2BatgydF4y2Baisin.gifgydF4y2Ba{0, 1, 2, 35, 510, >10}。我们称之为对象gydF4y2Ba计数。gydF4y2Ba

客体的目的gydF4y2Ba本地化gydF4y2Ba是指定每个对象实例的位置和大小。更准确地说,让gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba为二值随机变量,表示图像是否贴片gydF4y2Ba我gydF4y2Ba包含类型的对象gydF4y2BatgydF4y2Ba或者不是,因为gydF4y2Ba我gydF4y2Baisin.gifgydF4y2Ba{1,…,gydF4y2BaNgydF4y2Ba},gydF4y2BaNgydF4y2Ba~ 1000是图像补丁的数量。(图像补丁的大小和形状根据对象类型不同而不同;对于汽车的侧面视图,我们使用尺寸为30 × 80的补丁;为了处理不同尺寸的汽车,我们将该技术应用到不同比例的多个版本的图像上。)进行定位的一种方法是计算对数似然比gydF4y2Ba

eq02.gifgydF4y2Ba

为每一个gydF4y2Ba我gydF4y2Ba而且gydF4y2BatgydF4y2Ba,然后返回所有这个对数似然比高于某个阈值的位置。在这里gydF4y2BafgydF4y2BatgydF4y2Ba我gydF4y2Ba是否从图像中提取出一组局部特征gydF4y2Ba我gydF4y2Ba在补丁gydF4y2Ba我gydF4y2Ba为类gydF4y2Bat。gydF4y2Ba我们使用的特征和分类器的细节可以在Torralba等人的文章中找到。gydF4y2Ba19gydF4y2Ba

为简单起见,在本文中,我们选择gydF4y2BaDgydF4y2Ba最自信检测(在执行局部非最大抑制后);让它们的位置表示为gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba,因为gydF4y2Ba我gydF4y2Baisin.gifgydF4y2Ba{1,…,gydF4y2BaDgydF4y2Ba}。gydF4y2Ba图6gydF4y2Ba给出了一个典型图像的输出说明。对于本文的结果,我们设gydF4y2BaDgydF4y2Ba= 10,这样正确的检测就不会被丢弃,而且仍然足够小。在图中我们显示了顶部gydF4y2BaDgydF4y2Ba= 4次检测以避免杂乱。每次探测的位置gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba是通过盒子的位置和尺寸来表示的,以及他们的信心gydF4y2BacgydF4y2BatgydF4y2Ba我gydF4y2Ba由边框的厚度表示。在gydF4y2Ba图6 bgydF4y2Ba(上),我们看到,尽管系统已经检测到汽车,它也检测到三个假阳性。这是这种方法的典型例子。下面我们将看到如何通过使用全局上下文消除许多误报。gydF4y2Ba

*gydF4y2Ba3.2.使用全局图像特征进行对象存在性检测gydF4y2Ba

为了确定一个对象类是否存在于给定的要旨的图像中,我们可以直接学习该形式的二进制分类器gydF4y2BapgydF4y2Ba(gydF4y2BaPgydF4y2BatgydF4y2Ba= 1 |gydF4y2BaggydF4y2Ba).类似地,为了预测对象的数量,我们可以学习一个形式的序数回归函数gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2BatgydF4y2Ba|gydF4y2BaggydF4y2Ba).相反,我们选择两步的方法,首先估计场景的类别或类型,gydF4y2BapgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba=gydF4y2Ba年代gydF4y2Ba|gydF4y2BaggydF4y2Ba),然后用它来预测当前物体的数量,gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2BatgydF4y2Ba|gydF4y2Ba年代gydF4y2Ba=gydF4y2Ba年代gydF4y2Ba).这种方法的好处是具有场景类别(例如,街道、高速公路、森林)的明确表示,这也是集成模型的重要期望输出。gydF4y2Ba

我们可以使用一个简单的基于parzen窗口的密度估计器对场景进行分类gydF4y2Ba

ueq01.gifgydF4y2Ba

在哪里gydF4y2BaJgydF4y2Ba为每一类条件密度的混合组分数。一些场景分类的例子显示在gydF4y2Ba图4gydF4y2Ba.如夸托尼和托拉尔巴所示,gydF4y2Ba12gydF4y2Ba该技术通过15个不同的场景类别对75%的图像进行了正确分类。其他分类器也提供类似的性能。gydF4y2Ba

一旦我们估计了场景类别,我们就可以预测出现的对象数量gydF4y2Ba

eq03.gifgydF4y2Ba

在哪里gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2BatgydF4y2Ba=gydF4y2BangydF4y2Ba|gydF4y2Ba年代gydF4y2Ba=gydF4y2Ba年代gydF4y2Ba)是通过简单计数估计的。gydF4y2Ba

*gydF4y2Ba3.3.利用全局图像特征进行目标定位gydF4y2Ba

gist捕获图像的整体空间布局,因此可以用于在运行任何检测器之前预测每个对象类的预期垂直位置;我们称之为gydF4y2Ba启动位置。gydF4y2Ba然而,要点对于预测是没有用的gydF4y2Ba水平gydF4y2Ba物体的位置,通常不太受场景整体结构的限制(除了可能受到其他物体的水平位置的限制,这是我们在本文中忽略的可能性)。gydF4y2Ba

我们可以使用任何非线性回归函数来学习从要点到期望垂直位置的映射。我们使用了一个混合专家模型,gydF4y2Ba4gydF4y2Ba它是局部线性回归模型的简单加权平均。更准确地说,我们定义gydF4y2Ba

ueq02.gifgydF4y2Ba

在哪里gydF4y2BaYgydF4y2BatgydF4y2Ba是垂直位置的班吗gydF4y2Bat, KgydF4y2Ba是专家或混合组分的数量,gydF4y2BaNgydF4y2Ba表示高斯分布或正态分布,βgydF4y2BakgydF4y2Ba混合组分的回归权值是多少gydF4y2BakgydF4y2Ba,σgydF4y2Ba2gydF4y2BakgydF4y2Ba残差方差,和gydF4y2BawgydF4y2BakgydF4y2Ba(gydF4y2BaggydF4y2Ba)是专家的权重或“责任”gydF4y2BakgydF4y2Ba,由softmax或多项式logistic函数给出:gydF4y2Ba

ueq03.gifgydF4y2Ba

我们说明了该模型所作的预测gydF4y2Ba图6 bgydF4y2Ba,我们用概率密度函数缩放每个图像像素的强度gydF4y2BapgydF4y2Ba(gydF4y2BaYgydF4y2BatgydF4y2Ba|gydF4y2BaggydF4y2Ba).我们看到,效果是“屏蔽掉”图像中不太可能包含感兴趣的对象的区域。可以看到更多的例子gydF4y2Ba图4gydF4y2Ba.gydF4y2Ba

*gydF4y2Ba3.4.集成模型gydF4y2Ba

我们现在讨论如何组合上面描述的各个部分。其基本思想是使用全局特性对应该出现的对象实例的数量和位置进行“自顶向下”预测,然后使用本地补丁分类器提供“自底向上”信号。gydF4y2Ba

关键问题是如何结合这两个信息源。我们采用的方法如下(这与Murphy等人最初描述的方法略有不同。gydF4y2Ba9gydF4y2Ba).让我们先忽略位置信息。我们将检测器的置信度分数(gydF4y2BacgydF4y2BatgydF4y2Ba我gydF4y2Ba,在式2中定义为局部似然项,并拟合形式的模型gydF4y2BapgydF4y2Ba(gydF4y2BacgydF4y2BatgydF4y2Ba我gydF4y2Ba|gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba=gydF4y2BaogydF4y2Ba) =gydF4y2BaNgydF4y2Ba(gydF4y2BacgydF4y2BatgydF4y2Ba我gydF4y2Ba|μgydF4y2BatgydF4y2BaogydF4y2Ba,σgydF4y2BatgydF4y2BaogydF4y2Ba)gydF4y2BaogydF4y2Baisin.gifgydF4y2Ba{0,1}。当探测器被应用到一组确实包含该对象的补丁时,我们可以通过计算分数的经验均值和方差来了解这个高斯的参数gydF4y2BaogydF4y2Ba= 1)和不包含对象(因此gydF4y2BaogydF4y2Ba= 0)。如果我们对每次检测是真阳性还是假阳性有一致的先验,gydF4y2BapgydF4y2Ba(gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba= 1) = 0.5,我们可以用贝叶斯规则计算后验:gydF4y2Ba

ueq04.gifgydF4y2Ba

然而,这些检测并不都是独立的,因为我们有这样的约束gydF4y2Bacacm5303_e.gifgydF4y2Ba,在那里gydF4y2BaNgydF4y2BatgydF4y2Ba对象的数量是类型吗gydF4y2BatgydF4y2Ba.如果我们有自上而下的信息gydF4y2BaNgydF4y2BatgydF4y2Ba根据要点,根据公式3,我们可以计算出检测的后验分布gydF4y2BaOgydF4y2Ba(2gydF4y2BaDgydF4y2Ba)时间,根据要点,如下:gydF4y2Ba

ueq05.gifgydF4y2Ba

这里是术语gydF4y2BapgydF4y2Ba(gydF4y2BaOgydF4y2BatgydF4y2Ba1: DgydF4y2Ba|gydF4y2BangydF4y2Ba)仅当位向量为1时gydF4y2BaOgydF4y2BatgydF4y2Ba1: DgydF4y2Ba的长度gydF4y2BaDgydF4y2Ba有准确的gydF4y2BangydF4y2Ba元素打开。为了紧凑,我们使用符号1:gydF4y2BaDgydF4y2Ba表示指标1,…,gydF4y2BaD。gydF4y2Ba我们可以将其与本地检测器结合如下:gydF4y2Ba

ueq06.gifgydF4y2Ba

如果主旨强烈暗示对象类不存在,那么gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2BatgydF4y2Ba= 0 |gydF4y2BaggydF4y2Ba)gydF4y2Baap.gifgydF4y2Ba1,所以我们在后面关闭所有的对象位,而不管探测器评分,gydF4y2BapgydF4y2Ba(gydF4y2BaOgydF4y2BatgydF4y2Ba1:gydF4y2BaDgydF4y2Ba= 0 |gydF4y2BacgydF4y2BatgydF4y2Ba1:gydF4y2BaDgydF4y2Ba,gydF4y2BaggydF4y2Ba)gydF4y2Baap.gifgydF4y2Ba1.如果要旨强烈表明有一个对象存在,那么gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2BatgydF4y2Ba= 1 |gydF4y2BaggydF4y2Ba)gydF4y2Baap.gifgydF4y2Ba1个,而且只有一个gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba钻头将在后部打开;这将是探测器得分最高的一个。以此类推。gydF4y2Ba

现在我们讨论如何集成位置信息。让gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba是位置gydF4y2Ba我gydF4y2Ba班级的检测gydF4y2BatgydF4y2Ba.自gydF4y2BaYgydF4y2BatgydF4y2Ba表示类的对象的预期位置gydF4y2BatgydF4y2Ba,我们定义另一个局部似然项gydF4y2BapgydF4y2Ba(gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba|gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba= 1,gydF4y2BaYgydF4y2BatgydF4y2Ba) =gydF4y2BaNgydF4y2Ba(gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba|gydF4y2BaYgydF4y2BatgydF4y2Ba,τgydF4y2BatgydF4y2Ba),其中τgydF4y2BatgydF4y2Ba是预测位置周围的方差。如果对象不存在,我们使用均匀分布gydF4y2BapgydF4y2Ba(gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba|gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba= 0,gydF4y2BaYgydF4y2BatgydF4y2Ba∝1;当然,gydF4y2BaYgydF4y2BatgydF4y2Ba不是直接观察到的,但我们可以根据其要旨进行预测;这个收益率gydF4y2Ba

ueq07.gifgydF4y2Ba

它可以用闭合形式求解,因为它是两个高斯函数的卷积。我们现在可以将预期的位置和探测结合如下:gydF4y2Ba

ueq08.gifgydF4y2Ba

为了看到这种效果,假设主旨强烈暗示只有一个类型的对象gydF4y2BatgydF4y2Ba存在,gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2BatgydF4y2Ba= 1 |gydF4y2BaggydF4y2Ba)gydF4y2Baap.gifgydF4y2Ba1;在这种情况下,被打开的对象位将是得分最高且位于最可能位置的位。因此,在不太可能的位置的可靠探测被抑制了;同样,对可能地点的不自信探测也会增加。gydF4y2Ba

最后,我们讨论了如何组合多种类型的对象。直观地说,汽车的出现使行人出现的可能性更大,而电脑显示器出现的可能性更小。但是,对表单的联合分发进行编码是不切实际的gydF4y2BapgydF4y2Ba(gydF4y2BaPgydF4y2Ba1gydF4y2Ba、……gydF4y2BaPgydF4y2BaTgydF4y2Ba)直接,因为这将需要gydF4y2BaOgydF4y2Ba(2gydF4y2BaTgydF4y2Ba)参数。(编码gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2Ba1gydF4y2Ba、……gydF4y2BaNgydF4y2BaTgydF4y2Ba)直接会更糟。相反,我们引入场景类别潜变量gydF4y2Ba年代gydF4y2Ba,并假设对象类型的存在(和数量)在给定场景类别的条件下是独立的:gydF4y2Ba

ueq09.gifgydF4y2Ba

在此假设下,我们可以并行地对多个对象类型进行推理:对于每个可能的场景类别,计算后验gydF4y2BapgydF4y2Ba(gydF4y2BaOgydF4y2BatgydF4y2Ba1:gydF4y2BaDgydF4y2Ba|gydF4y2BacgydF4y2BatgydF4y2Ba1:gydF4y2BaDgydF4y2Ba,gydF4y2BalgydF4y2BatgydF4y2Ba1:gydF4y2BaDgydF4y2Ba,gydF4y2BaggydF4y2Ba,gydF4y2Ba年代gydF4y2Ba=gydF4y2Ba年代gydF4y2Ba),然后用加权平均数将它们与gydF4y2BapgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba=gydF4y2Ba年代gydF4y2Ba|gydF4y2BaggydF4y2Ba)作为权重。gydF4y2Ba

综上所述,我们的整个模型为如下联合概率分布:gydF4y2Ba

ueq10.gifgydF4y2Ba

这被说明为一个概率图形模型(参见例如,Koller和FriedmangydF4y2Ba5gydF4y2Ba)gydF4y2Ba图5gydF4y2Ba.每个随机变量都有一个节点:有阴影的节点被观察到(这些是图像的确定性函数),没有阴影的节点是隐藏的或未知的,需要推断。每个节点都有一条直接依赖于的变量的有向边。例如,gydF4y2BaggydF4y2Ba→gydF4y2Ba年代gydF4y2Ba是反映场景的分类器;的gydF4y2BaggydF4y2Ba→gydF4y2BaYgydF4y2BatgydF4y2Ba圆弧反映了基于要旨的位置引射;的gydF4y2Ba年代gydF4y2Ba→gydF4y2BaNgydF4y2BatgydF4y2BaArc反映给定场景类别的对象数量;的gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba→gydF4y2BacgydF4y2BatgydF4y2Ba我gydF4y2BaArc反映了类型对象的存在或不存在的事实gydF4y2BatgydF4y2Ba在补丁gydF4y2Ba我gydF4y2Ba影响检测器评分或置信度gydF4y2BacgydF4y2BatgydF4y2Ba我gydF4y2Ba;的gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba→gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2BaArc是一种确定patch位置的链接编码gydF4y2Ba我gydF4y2Ba;的gydF4y2BaYgydF4y2BatgydF4y2Ba→gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba弧线反映了gydF4y2BapgydF4y2Ba(gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba|gydF4y2BaYgydF4y2BatgydF4y2Ba,gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba)项;最后,还有gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba→ΣgydF4y2BatgydF4y2Ba而且gydF4y2BaNgydF4y2BatgydF4y2Ba→ΣgydF4y2BatgydF4y2Ba弧线,这是一个简单的技巧来执行gydF4y2BaNgydF4y2BatgydF4y2Ba=ΣgydF4y2BaDgydF4y2Ba我gydF4y2Ba= 1gydF4y2Ba我gydF4y2Ba(gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba= 1)约束。的ΣgydF4y2BatgydF4y2Ba节点是一个虚拟节点,用于强制gydF4y2BaNgydF4y2BatgydF4y2Ba节点和gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba节点。具体来说,它被“夹”到一个固定的状态,然后我们进行定义gydF4y2BapgydF4y2Ba(ΣgydF4y2BatgydF4y2Ba|gydF4y2BaOgydF4y2BatgydF4y2Ba1:gydF4y2BaDgydF4y2Ba,gydF4y2BaNgydF4y2BatgydF4y2Ba=gydF4y2BangydF4y2Ba) =gydF4y2Ba我gydF4y2Ba(ΣgydF4y2Ba我gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba=gydF4y2BangydF4y2Ba)(条件是观察到的孩子ΣgydF4y2BatgydF4y2Ba,所有父节点,gydF4y2BaNgydF4y2BatgydF4y2Ba而且gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba,因为“解释”现象而变得相关gydF4y2Ba5gydF4y2Ba).gydF4y2Ba

从gydF4y2Ba图5gydF4y2Ba,很明显,通过条件作用gydF4y2Ba年代gydF4y2Ba,我们可以对每种类型的对象独立并行地进行推理。该模型进行精确推理的时间复杂度为gydF4y2BaOgydF4y2Ba(gydF4y2Ba圣gydF4y2Ba2gydF4y2BaDgydF4y2Ba),忽略了运行检测器的成本。(Viola和Jones讨论了使用特征级联在大图像上快速评估检测器的技术gydF4y2Ba20.gydF4y2Ba)。我们可以用几种方法加速推断。例如,如果我们可以删除不可能的对象类别(并且不运行它们的检测器)gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2BatgydF4y2Ba> 0 |gydF4y2BaggydF4y2Ba)太低,这是非常有效的,因为gydF4y2BaggydF4y2Ba计算速度快。在幸存的类别中,我们可以在启动区域运行它们的探测器,靠近gydF4y2BaEgydF4y2Ba(gydF4y2BaYgydF4y2BatgydF4y2Ba|gydF4y2BaggydF4y2Ba).这将减少检测的数量gydF4y2BaDgydF4y2Ba每一类。最后,如有必要,我们可以在得到的修剪图形模型中使用蒙特卡洛推理(如吉布斯抽样),以降低时间复杂度。gydF4y2Ba

回到顶部gydF4y2Ba

4.结果gydF4y2Ba

综合系统的实例载于gydF4y2Ba图6 cgydF4y2Ba:我们看到,基于要旨的位置启动,降低了不可能位置的检测分数,从而消除了假阳性。在第二行,本地检测器能够产生一个信心检测,但第二辆车产生一个低信心检测。当低置信度检测落在预测区域内时,检测的置信度增加。注意,在本例中,有两个误报碰巧也位于预测区域内。在这种情况下,整个系统将增加误差的幅度。如果检测器产生上下文正确的错误,集成模型将无法丢弃这些错误。第三行显示了集成模型失败的另一个例子。在这种情况下,场景的结构使系统认为这是一个街景,然后将船和汽车混合在一起。尽管存在这些误差来源,综合系统的性能要比单独的汽车探测器的性能好得多。gydF4y2Ba

为了对我们方法的性能进行更定量的研究,我们使用了来自Oliva和Torralba的场景数据集gydF4y2Ba11gydF4y2Ba由2688张图片组成,涵盖8个场景类别(街道,建筑立面,摩天大楼,高速公路,山区景观,海岸,海滩和田野)。我们使用数据集的一半来训练模型,另一半用于测试。gydF4y2Ba

图7gydF4y2Ba显示两个任务的性能:对象定位和对象存在检测。这些图对应于精确召回图:横轴表示数据库中已检测到特定检测阈值的汽车的百分比,纵轴表示同一阈值的正确检测的百分比。通过改变决策阈值来获得图中的不同点。对于这两项任务,图中分别显示了单独使用对象检测器的性能、集成模型的性能,以及带有oracle的集成模型的性能,该oracle告诉每个图像的真实上下文。集成模型的性能必须在单独的检测器和上下文oracle的性能范围内。gydF4y2Ba

图7gydF4y2Ba(右)显示了精确回忆曲线,量化了三种不同系统在检测物体存在性方面的性能。最糟糕的是基于仅使用局部特征的对象检测器;中间是我们的综合系统,它结合了局部和全局的特点;其中最好的是基于真实场景类别标签的oracle系统。我们看到我们的集成模型比仅仅使用检测器做得更好,但很明显,更好的场景分类将进一步提高结果。值得注意的是,即使不进行对象定位,也可以很好地检测图像中是否存在一个对象。对图像所描绘的场景的了解就足够了。例如,在一张街道的照片中,汽车肯定会出现在照片中,而汽车不太可能出现在海滩的场景中。因此,即使在检测器无法定位图像中的物体时,场景类别与物体之间的关系也可以提供大量的信息。gydF4y2Ba

图7gydF4y2Ba(左)显示了精确回忆曲线,量化了三种不同系统的定位对象的性能。同样,最糟糕的是基于仅使用局部特征的对象检测器;中间是我们的综合系统,它结合了局部和全局的特点;其中最好的一个是基于真实场景类别标签的oracle系统。在这种情况下,知道真实的场景类别并没有多大帮助:它可以消除假阳性,如室内场景中的汽车,但它不能消除假阳性,如在街道场景中检测到的汽车,但在天空中。(当然,基于地理信息的位置启动系统试图消除这种空间异常值,但知道场景类别标签无助于定位。)gydF4y2Ba

对象定位比仅仅检测对象的存在要困难得多。这从横向比例中可以明显看出gydF4y2Ba图7gydF4y2Ba(左):召回率从未超过30%左右,这意味着大约70%的汽车被检测器遗漏,主要是由于遮挡。即使使用上下文可以缩小搜索空间,并消除发生在相关图像区域之外的虚警,但如果探测器无法对对象进行定位,上下文信息也无法对对象进行精确定位。全局上下文的使用(即使使用oracle)不会增加召回(因为这需要检测器工作),但是上下文能够增加精度,因为它能够在没有汽车的场景中消除误报警。在这种情况下,基于其他对象的更细粒度的上下文概念可能会有所帮助。但是,请注意,对于图像检索应用程序(例如,在web上),对象存在检测就足够了。由于速度的原因,我们可以采用以下两个阶段的方法:首先选择仅根据主旨预测包含对象的图像,因为这比应用滑动窗口分类器要快得多;然后应用集成模型进一步减少误报。gydF4y2Ba

回到顶部gydF4y2Ba

5.结论gydF4y2Ba

我们讨论了在视觉目标检测和定位中结合局部和全局特征的一种方法。当然,这个体系并不完美。例如,有时对象出现在上下文之外,如果局部证据是模糊的,可能会意外地消除(参见gydF4y2Ba图8gydF4y2Ba).防止这种情况的唯一方法是,如果本地检测器给出一个足够强的自底向上信号。相反,如果探测器在一个上下文合理的位置产生假阳性错误,它将不会被我们的系统排除。但即使是人也会有这种“幻觉”。gydF4y2Ba

从更广泛的意义上说,我们的系统是概率信息融合的一个很好的例子,这是一种广泛应用于其他领域的方法,如语音识别,它结合了局部声学模型和长范围语言模型。由于计算机视觉本质上是一个困难的逆问题,我们认为,在试图推断真实的潜在场景结构时,有必要结合尽可能多的证据来源。gydF4y2Ba

回到顶部gydF4y2Ba

致谢gydF4y2Ba

这项工作的资金由NGA NEGI-1582-04-0004, MURI拨款N00014-06-1-0734, NSF职业奖IIS 0747120, NSF合同iss -0413232,国防科学和工程研究生奖学金,以及来自微软和谷歌的礼物提供。KPM感谢NSERC和CIFAR的支持。gydF4y2Ba

回到顶部gydF4y2Ba

参考文献gydF4y2Ba

1.自然场景分类学习的贝叶斯层次模型。在gydF4y2BaIEEE计算机视觉与模式识别会议论文集gydF4y2Ba(2005), 524531。gydF4y2Ba

2.Heeger, D, Bergen, J.R.基于金字塔的纹理分析/合成。在gydF4y2Ba计算机图形学和交互技术第22届年会论文集gydF4y2Ba(美国纽约,1995年)。Acm, ny, 229238。gydF4y2Ba

3.Hoiem, D., Efros, A., Hebert, M.单一图像的几何背景。在gydF4y2BaIEEE计算机视觉国际会议gydF4y2Ba(2005)。gydF4y2Ba

4.Jordan, m.i., Jacobs, R.A.分层混合专家和EM算法。gydF4y2Ba神经计算,6gydF4y2Ba(1994), 181214。gydF4y2Ba

5.科勒(D.),弗里德曼(N.)gydF4y2Ba概率图形模型:原理和技术。gydF4y2Ba麻省理工学院出版社,2009。gydF4y2Ba

6.辨别性随机场:分类中上下文交互的辨别性框架。在gydF4y2BaIEEE计算机视觉国际会议gydF4y2Ba(2003)。gydF4y2Ba

7.拉伯尼克,S.,施密德,C.,庞塞,J.超越特征袋:识别自然场景类别的空间金字塔匹配。在gydF4y2BaIEEE计算机视觉与模式识别会议论文集gydF4y2Ba(2006), 21692178。gydF4y2Ba

8.墨菲,K., Torralba, A.,伊顿,D.,弗里曼,W.T.使用局部和全局特征进行对象检测和定位。gydF4y2Ba面向类别级对象识别。gydF4y2Ba庞塞、赫伯特、施密特和齐瑟曼主编。2006.gydF4y2Ba

9.墨菲,K.,托拉尔巴,A.,弗里曼,W.用森林看树木:一个关联特征、对象和场景的图形模型。在gydF4y2Ba神经信息处理系统的进展gydF4y2Ba(2003)。gydF4y2Ba

10.诊断色斑调节场景识别。gydF4y2BaCogn。Psychol 41。gydF4y2Ba(2000), 176210。gydF4y2Ba

11.Oliva, A., Torralba, A.场景形状建模:空间包络的整体表现。gydF4y2BaInt。J. Comp.愿景42gydF4y2Ba(2001), 145175。gydF4y2Ba

12.夸托尼,A.托拉尔巴,A.识别室内场景。在gydF4y2BaIEEE计算机视觉与模式识别会议论文集gydF4y2Ba(2009), 413420。gydF4y2Ba

13.A.拉比诺维奇,A.维达尔迪,C.加勒吉洛斯,E.维维奥拉,E.贝隆吉,S.上下文中的对象。在gydF4y2BaIEEE计算机视觉国际会议gydF4y2Ba(里约热内卢de Janeiro, 2007)gydF4y2Ba

14.Richard X.H, Zemel, r.s., careiraperpinan, M.A.图像标记的多尺度条件随机场。在gydF4y2BaIEEE计算机视觉与模式识别会议论文集gydF4y2Ba(2004), 695702。gydF4y2Ba

15.Russell, b.c., Torralba, A. Murphy, K.P, Freeman, W.T. LabelMe:一个用于图像注释的数据库和基于web的工具。gydF4y2BaInt。J. Comp.愿景77gydF4y2Ba, 13(2008), 157173。gydF4y2Ba

16.基于情境的视觉:利用二维和三维图像的信息识别物体。gydF4y2Ba模式分析与机器智能汇刊gydF4y2Ba, 10(1991) 10501065。gydF4y2Ba

17.对象检测的上下文启动。gydF4y2BaInt。J. Comp.愿景53gydF4y2Ba, 2(2003), 153167。gydF4y2Ba

18.Torralba, Murphy, K, Freeman, W.使用增强随机场的目标检测上下文模型。在gydF4y2Ba神经信息处理系统的进展gydF4y2Ba(2004)。gydF4y2Ba

19.Torralba, A., Murphy, K.P, Freeman, W.T.。共享多类和多视图对象检测的视觉特征。gydF4y2BaIEEE反式。模式肛门。马赫。智能29。gydF4y2Ba, 5(2007), 854869。gydF4y2Ba

20.维奥拉,P,琼斯,M.鲁棒实时目标检测。gydF4y2BaInt。57 .[参考译文gydF4y2Ba, 2(2004), 137154。gydF4y2Ba

回到顶部gydF4y2Ba

作者gydF4y2Ba

答:TorralbagydF4y2Ba(gydF4y2Batorralba@csail.mit.edugydF4y2Ba),计算机科学与人工智能实验室,麻省理工学院电气工程与计算机科学系,剑桥,马萨诸塞州。gydF4y2Ba

k·p·墨菲gydF4y2Ba(gydF4y2Bamurphyk@cs.ubc.cagydF4y2Ba),加拿大温哥华英属哥伦比亚大学计算机科学系。gydF4y2Ba

w·t·弗里曼gydF4y2Ba(gydF4y2Babillf@csail.mit.edugydF4y2Ba),计算机科学与人工智能实验室,麻省理工学院电气工程与计算机科学系,剑桥,马萨诸塞州。gydF4y2Ba

回到顶部gydF4y2Ba

脚注gydF4y2Ba

这篇论文的早期版本,题为“用森林看树木:一个有关特征、对象和场景的图形模型”,发表在gydF4y2Ba神经信息处理系统gydF4y2Ba, 2003年,麻省理工学院出版社。Ref。[9]。gydF4y2Ba

DOI: http://doi.acm.org/10.1145/1666420.1666446gydF4y2Ba

回到顶部gydF4y2Ba

数据gydF4y2Ba

F1gydF4y2Ba图1。在存在图像退化(如模糊)的情况下,目标识别受到上下文信息的强烈影响。视觉系统根据物体的大小和在场景中的位置对其身份进行假设。在这些图像中,相同的黑色斑点可以被解释为盘子、瓶子、手机、汽车、行人或鞋子,这取决于上下文。(每个圈出的斑点像素相同,但在某些情况下被旋转了。)gydF4y2Ba

F2gydF4y2Ba图2。面具后面藏着什么?在这个例子中,上下文是如此强大,以至于人们可以可靠地推断隐藏的对象是一个计算机显示器。gydF4y2Ba

F3gydF4y2Ba图3。该图说明了三幅不同图像的要旨特征编码的信息。详情见正文。gydF4y2Ba

F4gydF4y2Ba图4。利用gist预测图像中汽车的出现/消失及其位置。这里显示的输出不包含来自汽车检测器的任何信息,只是基于上下文。注意,在用于拟合每个场景类别的对象计数分布的数据集中,在街道场景(有许多汽车在循环和停放)中发现汽车比在高速公路场景中发现汽车更常见,高速公路场景中有许多空道路的镜头。因此高速公路的直方图显示gydF4y2BapgydF4y2Ba(gydF4y2BaNgydF4y2Ba车gydF4y2Ba= 0) = 0.6。gydF4y2Ba

F5gydF4y2Ba图5。以有向图形模型表示的集成系统。我们展示了两种对象类型,gydF4y2BatgydF4y2Ba而且gydF4y2BatgydF4y2Ba,为了简单。观察变量用阴影圈表示,未知变量用清晰圈表示。变量在文中定义。的ΣgydF4y2BatgydF4y2Ba节点是一个虚拟节点,用于强制gydF4y2BaNgydF4y2BatgydF4y2Ba节点和gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba节点。gydF4y2BaOgydF4y2BatgydF4y2Ba我gydF4y2Ba=框i中存在对象类t的指示符;gydF4y2BaYgydF4y2BatgydF4y2Ba=对象类的垂直位置gydF4y2BatgydF4y2Ba;gydF4y2BaNgydF4y2BatgydF4y2Ba=对象类的实例数gydF4y2BatgydF4y2Ba;gydF4y2BalgydF4y2BatgydF4y2Ba我gydF4y2Ba=对象类的框I的位置gydF4y2BatgydF4y2Ba;gydF4y2BacgydF4y2BatgydF4y2Ba我gydF4y2Ba=对象类别I的框I得分;gydF4y2BaDgydF4y2Ba=高置信度检测数;gydF4y2BaggydF4y2Ba= gist描述符;gydF4y2Ba年代gydF4y2Ba=场景类别。gydF4y2Ba

F6gydF4y2Ba图6。(a)三幅输入图像。(b)基于局部特征的物体检测器的前四个检测。检测盒的厚度与检测的置信度有关。(c)基于全局特征预测汽车的位置。(d)结合当地和全球特点。gydF4y2Ba

F7gydF4y2Ba图7。汽车定位(左)和汽车存在检测(右)的性能。gydF4y2Ba

F8gydF4y2Ba图8。脱离上下文的对象可能会被我们的系统错误地删除。gydF4y2Ba

回到顶部gydF4y2Ba


©2010 acm 0001-0782/10/0300 $10.00gydF4y2Ba

允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。gydF4y2Ba

数字图书馆是由计算机协会出版的。版权所有©2010 ACM, Inc。gydF4y2Ba


没有找到条目gydF4y2Ba

Baidu
map