ACM

ACM通信

首页 / 杂志存档 / 2013年9月(第56卷第9期) / 基于可变形部件模型的视觉对象检测 /全文

研究突出了

基于可变形部件模型的视觉对象检测

作者:佩德罗·费尔岑斯瓦布，罗斯·吉尔希克，大卫·麦卡利斯特，迪瓦·拉马南
ACM通讯，2013年9月，Vol. 56 No. 9, 97-105页
10.1145 / 2494532
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享分享到黑客新闻在推特上分享在Facebook上分享

我们描述了一种最先进的系统，用于在杂乱的图像中寻找物体。我们的系统基于可变形模型，该模型使用局部零件模板和零件位置的几何约束来表示对象。我们将目标检测简化为带有潜在变量的分类。潜在变量引入不变性，使检测具有高度可变外观的对象成为可能。在训练过程中，我们使用支持向量机的一种推广来纳入潜在信息。这就形成了具有潜在变量的分类器判别训练的一般框架。判别训练受益于大型训练数据集。在实践中，我们使用一种迭代算法，在估计正例子的潜在值和解决一个大的凸优化问题之间交替进行。利用主动集技术对训练数据进行自适应次采样，可以对这个大凸问题进行实际优化。

回到顶部

1.简介

目标识别是计算机视觉的一个基本挑战。考虑在静态图像中从一个类别(如人或车)中检测物体的问题。这是一个困难的问题，因为每个类别中的对象在外观上可能有很大的差异。变化产生于照明的变化，视点，和类内变化的形状和其他视觉属性之间的对象实例。例如，人们穿着不同的衣服，摆出不同的姿势，而汽车有不同的形状和颜色。

早期的物体识别方法侧重于三维几何模型和不变特征。^22，24，25更现代的方法倾向于基于外观的表示，直接建模局部图像特征。^21，27机器学习技术已经非常成功地训练基于外观的模型在有限的设置，如人脸检测^{29, 30}还有手写数字识别。²³我们的系统使用新的机器学习技术来训练将局部外观模型与几何约束相结合的模型。

将机器学习技术应用到目标检测中，我们可以将问题简化为二值分类。考虑一个分类器，它将图像以及图像中的位置和比例作为输入。分类器判断在给定位置是否有目标类别的实例，并按比例缩放。检测是通过评估分类器在一个密集的位置集和尺度的图像。这种方法通常被称为“滑动窗口”检测。让x指定图像以及图像内的位置和比例。在线性分类器的情况下，我们阈值评分·(x),是模型参数的向量(通常被视为模板)和(x)是总结图像区域外观的特征向量，定义为x。这种方法的一个困难是，线性分类器可能不足以建模具有显著外观变化的对象。

一种用于处理对象外观中较大变异性的表示是图形结构，^{14, 18}在这种情况下，物体是通过按可变形的结构排列的一组部件来描述的。在图形结构模型中，每个部分对物体的局部外观属性进行编码，其可变形结构的特征是部分对之间的弹簧式连接。

可变形模型，如图形结构，可以捕捉到外观的重大变化，但单一的可变形模型仍然不能代表许多有趣的对象类别。考虑为自行车的外观建模。自行车有不同的类型(如山地车、串联车、一大轮一小轮的小型自行车)，我们可以从不同的方向观看它们(如正面和侧面)。我们使用可变模型的混合来处理这些更重要的变化。

我们的分类器将混合成分选择和部分位置作为潜在变量。让x表示图像以及图像内的位置和比例。我们的分类器计算表单的分数

在这里是模型参数的向量，z是潜在值，和(x，z)为特征向量。如果分数高于一个阈值，我们的模型将在x。与每一次检测相关联的是推断出的潜在值，z* = argmax_z·(x，z)，它指定了混合组分的选择以及与该组分相关联的部件的位置。图1在每种情况下显示两个检测和推断出的部件位置。我们注意到(1)可以处理非常一般形式的潜在信息。例如,z可以在丰富的可视化语法下指定派生。¹⁵

训练可变形部件模型的一个挑战是通常很难获得带有部件注释的训练数据。注释部分可能非常耗时，而且非常模棱两可。例如，沙发模型的合适部件是什么?我们从目标对象周围的边界框形式的弱标记数据中训练我们的模型。在学习过程中自动推断零件结构和潜在零件位置。为了实现这一点，我们开发了(1)中形式的潜在变量分类器判别训练的一般框架。这导致了一种形式主义，我们称之为潜在支持向量机(LSVM)。

滑动窗检测导致分类不平衡问题。消极的例子远远多于积极的例子。为了利用判别训练获得较高的性能，常常需要详尽地利用大型训练集。这激发了一个数据子抽样过程，即搜索所有的负面实例，找到硬的负面实例，然后训练一个与这些实例相关的模型。Dalal和Triggs采用了一种启发式的硬否定数据挖掘方法⁷至少可以追溯到施耐德曼和卡纳德使用的培训方法²⁸还有维奥拉和琼斯。^30.我们开发了简单的数据挖掘算法，对支持向量机和最小支持向量机的训练数据进行子采样，保证收敛到根据整个训练集定义的最优模型。

我们将在第2节正式定义我们的模型。在第3节中，我们描述了一个学习带有潜在变量的分类器的一般框架。第4节描述了我们如何使用这个框架来训练对象检测模型。我们在第5节给出了实验结果，并在第6节通过讨论相关工作来总结。

回到顶部

2.模型

我们模型的一个核心组件是模板，或过滤器，它根据局部图像特征捕获对象部件的外观。过滤器定义了在不同的图像位置和比例放置部件的分数。这些分数是通过变形模型结合在一起的，该模型根据几何关系对零件的排列进行评分。检测涉及使用高效算法搜索零件的排列。这是在可变形部件模型的混合物中对每个组件单独完成的。

2.1.过滤器

我们的模型是由应用于密集特征图的线性过滤器构建的。特征映射是一个数组，其条目是d-维特征向量在图像位置的密集网格上计算(例如，每8 × 8像素)。每个特征向量描述了一个小的图像补丁，同时引入了一些不变量。这里描述的框架与特性的特定选择无关。在实践中，我们使用来自Dalal和Triggs的方向梯度直方图(HOG)特征的低维变化。⁷HOG特性为光度变换和小图像变形引入了不变性。

线性滤波器由w×h的数组d维空间权向量。直观地说，过滤器是一个模板，它被调优以响应图像特征的标志性排列。过滤器通常比特征地图小得多，可以应用于特征地图中的不同位置。过滤器的分数或反应F在一个特定的特征映射位置是通过取点积得到的F的权向量数组，将提取的特征向量拼接成一个长向量w×h功能图窗口。因为物体出现的比例范围很广，所以我们对多个特征图应用相同的过滤器，每个特征图都是从原始图像的缩放版本计算出来的。图2展示了一些过滤器、特征映射和过滤器响应的示例。固定符号，让我做一个形象p= (x，y，年代)指定图像中的位置和比例。我们写F·（我，p)为应用过滤器获得的分数F在指定的位置和比例p。

2.2.可变形模型的一部分

为了将一组过滤器组合成一个可变形的模型，我们定义了一些过滤器对之间的弹簧式连接。把过滤器看作顶点，把它们的两两连接看作边，一个模型是由一个图定义的。这里我们考虑用星图表示的模型，其中一个过滤器作为枢纽或根，所有其他过滤器都连接到它。

在我们的恒星模型中，一个低分辨率的根过滤器，几乎覆盖了整个物体，作为恒星的中心。更高分辨率的部分过滤器，覆盖对象的更小的区域，连接到根。图1说明用于检测行人的星型模型及其在测试图像中的两个最高得分检测。

我们发现，使用更高分辨率的特征来定义零件滤波器是获得高识别性能的必要条件。使用这种方法，与根过滤器捕获的特征相比，部分过滤器捕获分辨率更高的特征，本地化的精度更高。考虑建立一个脸部模型。根过滤器可能捕获面部整体的粗糙外观模型，而部分过滤器可能捕获面部部件(如眼睛、鼻子和嘴巴)的详细外观。

对象的模型n部件由一组参数(F₀, (F₁，d₁),…, (F_n，d_n)，b),F₀是一个根过滤器，F_我是一个部分过滤器，d_我是矢量的变形参数，和b是一个标量偏置项。向量d_我指定二次函数的系数，该二次函数为过滤器标记位置我相对于根过滤器的位置。我们使用二次变形模型，因为它是相对灵活的，但仍然易于有效的计算。相对位置上的二次分数可以看作是连接部件过滤器和根过滤器的弹簧。弹簧的休息位置和刚度是由d_我．

物体假设由构型向量给出z= (p₀、……p_n),p_我= (x_我，y_我，年代_我)指定的位置和比例我th过滤器。假设的得分由每个过滤器在各自位置的得分(数据项)减去变形成本，变形成本取决于每个部分相对于根的位置(空间先验)，加上偏差，

(2)中第二个和中的每一项都可以解释为一个锚定部分的弹簧变形模型我到一个相对于根的理想位置。

一个假设的得分z可以用点积的形式表示，·(我，z)，在模型参数向量之间还有一个特征向量z)，

这使得可变形部件模型和线性分类器之间的联系。我们使用这种表示法来学习潜在支持向量机框架下的模型参数。

2.3.检测

为了检测图像中的对象，我们计算每个根过滤器位置的累计分数p₀根据各部件的最佳位置相对p₀

让k为每个筛选器可能位置的数量。的累计分数的朴素计算p₀将O（nk)时间。因为有k选择p₀这将导致O（nk²)时间算法，计算所有累积分数。利用Felzenszwalb和Huttenlocher的广义距离变换算法可以得到一种更快的方法。¹³这就产生了一种方法，可以计算中所有的累计分数O（nk)时间。说明了这种方法图2．

我们通过找到分数的局部极大值(p₀)超过用户指定的置信阈值。这种非最大抑制步骤消除了在位置和规模上略有不同的冗余检测，因此在很大程度上由相同的图像证据支持。

2.4.混合模型

正如在介绍中所描述的，许多有趣的对象类别展示了比单个可变形模型更多的类内变化。自然扩展涉及到使用可变形模型的混合。

形式上，一个混合模型米组件定义为米元组,米= (米₁、……米_米),米_c是模型为cth组件。一个对象的假设,z= (c，p₀、……)指定混合组件，1c米，以及地点p_我对于每个过滤器米_c．这个假设的得分就是这个假设的得分z”= (p₀、……)cth模型组件。在单个可变形模型的情况下，混合模型假设的得分可以通过模型参数向量(每个混合成分的参数拼接)和根据图像适当构造的特征向量之间的点积来表示我和假设z。

为了使用混合模型检测对象，我们首先独立计算每个组件的累积根分数，然后为每个根位置选择该位置得分最高的组件假设。

回到顶部

3.潜在的支持向量机

我们的模型涉及潜在变量的二元分类器。为了训练这些分类器，我们使用了一个潜在支持向量机(LSVM)。^一个为了制定LSVM训练目标，考虑以下形式的评分函数

在这里x是输入，比如检测窗口;为模型参数向量;而且z是对潜在变量(如部件放置位置)赋值。一组Z（x)定义示例可能的潜在值x。的二进制标签x可以通过对该分数进行阈值化得到。

与经典支持向量机类似，我们可以训练从标签的例子D= (x₁，y₁、……x_n，y_n),y_我{1,1}，通过最小化以下目标函数，

马克斯(0,1y_我f（x_我))为标准铰损，为常数C控制正则化项的相对权重。请注意，如果每个示例(|Z（x_我)| = 1)然后f是线性的，我们得到了线性支持向量机作为lsvm的一种特殊情况。

3.1.Semi-convexity

因为评分函数(8)是非线性的， LSVM目标函数(9)在．然而，一旦为正训练例子指定了潜在信息，训练问题就会变得凸化。

要看到这个，请注意那个f（x)(如(8)所定义)是函数的最大值，其中每个函数在．因此f（x)是凸函数的最大值，因此是凸函数。这意味着铰链损耗max(0,1y_我f（x_我))，是凸在当y_我= 1。即，损失函数是凸的对负面的例子。现在，如果我们只允许对每个正的例子设置一个潜在变量，也就是说，如果我们固定正的潜在值，那么铰链损失在，因此在正例子上也是凸的。因此，将潜在信息固定在正例子上使整体训练目标凸化。这个观察结果激发了下面的训练算法:

持有固定，为每个正例子选择最佳潜在值，

修正正面例子的潜在变量Z（x_我) = {z_我}，求解(9)定义的(现在是凸的)优化问题。

这个过程可以看作是一个块坐标下降优化的辅助训练目标l（，Z_p)，这取决于两者并选择潜在值为积极的例子Z_p．此外，如果一对(，Z_p)使辅助目标最小化l（，Z_p),那么最小化原来的LSVM目标l（)．这证明了通过最小化训练的合理性l（，Z_p)．半凸性在这种方法中起着重要的作用，因为它导致了第2步中的一个凸优化问题，尽管反例的潜值不是固定的。

3.2.数据子采样优化

当正例潜值固定时，LSVM目标函数是凸的，可以用多种方法进行优化。然而，在训练滑动窗口分类器时出现的一个经典难题是，单个训练图像会产生大量的负面例子。这一困难以前已经通过启发式方法解决了，启发式方法从一小部分负面例子开始，并在训练模型和使用前一个模型生成的假阳性增加负面训练集之间交替进行。^7，30.

我们已经开发了这个启发式过程的一个版本，这是量身定做的判别式训练与铰链损失。它使用训练数据中相对较小的子集反复训练模型，并保证在原始的大数据集下找到最优模型。该方法既适用于标准支持向量机，也适用于潜在支持向量机。

我们的方法维护一个子集C在训练数据中，训练模型参数的子集C，然后更新C。为了更正式地描述这个过程，我们首先定义模型的“硬例子”如下所示,我整个训练集的范围

我们的算法初始化C到任意的一组例子(比如所有的阳性和一小部分随机的阴性)。然后在其中重复以下步骤* (C)是在训练集上最小化训练目标的模型C。

集: =* (C)．
缩小C通过移除不在中的元素H（)．
成长C通过添加新的示例H（)．

回想一下，我们保持正例子的潜在值是固定的，所以目标函数是凸的。如果C包含所有的H（，则训练目标的子层次为C等于训练目标相对于整个数据集的子层次，我们就可以终止这个过程。此外，我们可以证明进程总是会终止。基本的见解是，训练目标的价值在集上C摘要引入。注意，培训目标在C当我们收缩时不会改变吗C在步骤2中，因为被移除的样例的铰链损失为零。添加新元素时，目标也不会减少C在步骤3中。实际上，培养目标就在于C随着时间的推移和可能子集的数量的增长C是有限的，进程必须终止。

回到顶部

4.训练模型

假设我们有一些训练图像，在特定类别的对象周围有边界框。我们从每个边界框中定义一个正示例。边界框不指定混合组件标签或过滤器位置，因此我们在训练期间将这些作为潜在变量。我们使用边界框信息来约束每个正例中根过滤器的位置。我们从不包含目标类别对象的图像中定义了一组非常大的负面示例。在这样的图像中，每个位置和比例都会产生不同的反面例子。

正例子和负例子一起导致了一个潜在的SVM训练问题，我们希望选择一个正例子高分、负例子低分的模型。我们使用3.1节中的块坐标下降算法来优化LSVM训练目标。由于该算法容易受到局部极小值的影响，因此必须谨慎地对其进行初始化。

初始化:我们首先学习混合模型中每个组件的根过滤器。我们把积极的例子分成米不相交的组基于它们的包围框的纵横比。对于每个组，我们将包围盒中的图像数据变形为标准大小，并使用标准支持向量机训练根过滤器。为了初始化部件过滤器，我们贪婪地放置固定数量的部件(在我们所有的实验中是8个)，以覆盖根过滤器的高能区域。将根滤波器插值到空间分辨率的两倍来初始化部件滤波系数，并将部件变形参数初始化为一个惩罚较大位移的值。图3给出了一个双组分汽车模型的初始模型。

坐标下降:给定一个初始模型，坐标下降算法的步骤1估计每个正例的潜在值。这包括混合组件标签和过滤器位置。我们将根过滤器的位置约束为与正示例的边界框重叠大量的位置。在坐标下降的第2步，我们学习了一个新的模型通过求解一个带有随机次梯度下降和反例数据子采样的大尺度凸规划(第3.2节)。请注意，我们重复更新每个正示例的潜在值，包括混合组件标签。因此，我们的算法自然地对正例进行“判别聚类”。

回到顶部

5.实证结果

本文描述的系统已在PASCAL VOC数据集上进行了评估。我们参考Everingham等人。⁹但需要强调的是，PASCAL VOC挑战被广泛认为是对象检测的困难测试平台。

每个数据集包含数千张真实世界的图像，并为20个对象类指定了地面真实边界框。在测试时，目标是预测图像中给定类的所有对象的边界框(如果有的话)。在实践中，系统会输出一组带有置信度分数的边界框，并在不同的点对这些分数进行阈值设置，从而获得测试集中所有图像的精确查全率曲线。对于一个特定的阈值，精确度是报告的正确检测的包围盒的比例，而召回率是找到的对象的比例。

如果报告的边界框与地面真实边界框重叠超过50%，则认为它是正确的。当系统报告多个边界盒与一个地面真边界盒重叠时，只有一个检测被认为是正确的。一个系统的评分标准是精确查全曲线的平均精度(AP)，这是为每个对象类独立计算的。

图4展示了从PASCAL VOC 2010数据集中学习的一些模型。图5展示了一些使用这些模型的检测示例。我们展示了高分的正确检测和高分的假阳性。这些示例说明了我们的模型如何处理外观上的重大变化，例如汽车和马。

在某些类别中，我们的错误检测往往是由于不同类别中物体之间的相似性，例如马和牛之间或汽车和公共汽车之间的相似性。在其他类别中，错误检测往往是由于相对严格的边界框重叠标准。人的类别显示的两个假阳性是由于与地面真值边界框重叠不足。对于猫类也是如此，我们经常检测到猫的脸，并报告一个与包含整个对象的正确边界框有相对较少重叠的边界框。事实上，在猫类的假阳性检测中，得分最高的前20名对应的是一张猫脸。这是一个极端的例子，但它解释了为什么我们在这方面的AP分数很低。许多猫的正训练示例只包含人脸，我们的猫混合模型有一个组件专门用于检测猫的人脸，而另一个组件则捕获整只猫。有时，错误的混合成分得分最高，这表明我们在不同成分之间的得分可以得到更好的校准。

在2007年、2008年和2009年的PASCAL VOC竞赛中，我们的系统在20个类别中分别获得了6分、7分和7分的AP最高分数。⁹我们的参赛作品获得了2008年和2009年比赛的冠军。在2010年的竞赛中，我们的系统在20个类别中的3个类别中获胜，其中3个系统取得了较高的AP平均分(所有类别的平均分)，它们都是我们系统的扩展，使用了额外的功能、更丰富的环境和更多的部件。⁹表1总结了我们系统在2010年数据集上的AP得分，以及所有进入正式竞赛的系统的最佳得分。我们还展示了两种提高检测质量的后处理方法的效果。

第一种方法，即边界框预测，展示了在测试时推断潜在结构所带来的额外好处。我们使用线性回归模型来预测一个假设的真实边界框从推断的零件结构。第二种方法是上下文重新评分，利用多项式核支持向量机的特征为同一图像中20个对象类检测器的基本检测分数和最高分数，计算每个检测的新的置信度分数。该方法可以学习对象类之间的共现约束;因为汽车和沙发往往不会同时出现，所以如果图像中有一张高得分的沙发，汽车检测就应该降低权重。目前，这种上下文重新评分方法优于更复杂的方法，例如Desai等人提出的方法。⁸

我们在长期建立的PASCAL VOC 2007数据集上评估了我们系统的不同方面。图6总结人员类别的不同模型的结果。我们训练的模型有1个和3个组件，有和没有部件，并强制每个组件的镜像对称或允许不对称的模型。我们看到零件的使用可以显著提高检测精度。混合模型在人的类别中也非常重要，因为有很多人被裁剪成不同的高度(例如，桌子)。允许不对称模型，其中对象的面向方向被视为潜在变量，产生一个非常小的变化时，只使用根过滤器模型。然而，在添加部件后，潜向产生了显著的改善。

回到顶部

6.讨论

对象检测是困难的，因为实例可以在外观上有很大的变化，因为对象往往出现在混乱的背景中。潜在变量模型为处理外观变化提供了一种自然的形式。这与其他主要依赖于不变特性的方法不同。²⁶相反，我们发现两种方法的结合，即建立在不变的局部图像描述符上的潜在变量模型，⁷工作的很好。通过判别训练，我们的模型对杂乱的背景具有很强的鲁棒性。这需要使用大量的负面训练示例来模拟在测试时遇到的正面和负面分布。

在使用各种类型的可变形模型进行目标检测方面有大量的工作要做，包括几种可变形模板模型(例如，Cootes等人，⁴考夫兰et al .,⁵Grenander et al .,^20.和Yuille等人。³³)和各种零件模型(如Amit和Trouve，¹节et al .,^3.Crandall et al .,⁶Felzenszwalb Huttenlocher,¹⁴费格斯et al .,¹⁷> Elschlager,¹⁸和Weber等人。³¹)．我们的模型是基于Felzenszwalb和Huttenlocher的图形结构公式¹⁴Fischler和Elschlager¹⁸，它评估图像中可能的零件位置和比例的密集集合。我们能够使用Felzenszwalb和Huttenlocher的快速匹配算法以有效的方式做到这一点。¹⁴我们的方法不同于过去对变形模型的研究，它使用了高度工程化的局部特征⁷弱监督判别学习算法。

这里描述的工作最初发表在Felzenszwalb等人。¹²和Felzenszwalb等人。¹⁶与在线可用的相关代码发布。¹¹我们以多种方式扩展了这项工作。在Felzenszwalb等人。¹⁰我们探索了级联分类器，该分类器在可变形部件模型中按顺序评估滤波器，并使用中间阈值删除计算。这种方法的结果是一个数量级的加速和实时性能的准确性损失很小。费尔岑斯瓦布和麦卡利斯特¹⁵和Girshick等人，¹⁹我们追求基于语法的模型，将可变形部件模型一般化，以允许具有可变结构的对象、部件级别的混合模型以及跨组件和对象类的部件可重用性。最后，我们的方法仍然受限于对初始化的敏感性。降低这种敏感性的一种方法是使用带有部分和混合标签的部分或全部注释数据。我们最近的研究表明，人们可以使用这样的框架来获得具有竞争力的面部分析结果³⁴以及关节姿态估计。³²

回到顶部

致谢

本材料是基于美国国家科学基金会在No。IIS 0746569, IIS 0811340和IIS 0812428。

回到顶部

参考文献

1.POP:用于物体识别的零件模型拼接。Int。j .第一版。粘度75， 2(2007)， 267282。

2.andrew, S.， Tsochantaridis, I.， Hofmann, T.多实例学习的支持向量机。在神经信息处理系统研究进展(2003),体积15。

3.Burl, M.， Weber, M.， Perona, P.使用局部光度和全局几何的目标识别的概率方法。在欧洲计算机视觉会议(1998)。

4.库特，T，爱德华兹，G，泰勒，c活跃的外观模型。IEEE反式。模式肛门。马赫。智能。23， 6(2001)， 681685。

5.Coughlan, J.， Yuille, A.， English, C.， Snow, D.不需要用户初始化的高效可变形模板检测和定位。第一版。视觉形象理解， 3(2000)， 303319。

6.克兰德尔，D.， Felzenszwalb, P.， Huttenlocher, D.基于统计模型的部分识别空间先验。在计算机视觉与模式识别会议(2005)。

7.Dalal, N.， Triggs, B.面向梯度的人类检测直方图。在计算机视觉与模式识别会议(2005)。

8.德赛，C.，拉曼南，D.，福克斯，C.多类对象布局的判别模型。Int。j .第一版。粘度95， 1(2011)， 112。

9.《PASCAL可视化对象类的挑战》一书的作者:Everingham, Van Gool, L.， Williams, c.k.i.， Winn, J.， Zisserman。http://www.pascal-network.org/challenges/VOC/index.html．

10.刘志刚，刘志刚，刘志刚。基于可变形部件模型的层叠目标检测方法。在计算机视觉与模式识别(2010)。

11.Felzenszwalb, P.， Girshick, R.， McAllester, D.， Ramanan, D.判别训练的可变形部件模型。http://people.cs.uchicago.edu/~pff/latent/．

12.Felzenszwalb, P.， Girshick, R.， McAllester, D.， Ramanan, D.基于区分训练的部分模型的目标检测。IEEE反式。模式肛门。马赫。智能。32， 9(2010)， 16271645。

13.采样函数的距离变换。20041963技术报告，美国康奈尔大学CIS系，2004年。

14.物体识别的图像结构。Int。j .第一版。粘度61， 1(2005)， 5579。

15.对象检测语法。技术报告TR-2010-02，计算机科学系，芝加哥大学，2010。

16.Felzenszwalb, P.， McAllester, D.， Ramanan, D.一种判别训练的多尺度可变形零件模型。在计算机视觉与模式识别会议(2008)。

17.Fergus, R.， Perona, P.， Zisserman, A.基于无监督尺度不变学习的目标类识别。在计算机视觉与模式识别会议(2003)。

18.fisher, M.， Elschlager, R.图像结构的表示与匹配。IEEE反式。第一版。C-22， 1(1973)， 6792。

19.格尔希克，费尔岑斯瓦布，P.，麦卡莱斯特，D.基于语法模型的对象检测。在神经信息处理系统研究进展(2011), 24卷。

20.格兰德，美国，周，Y，基南，D。手:生物形状的模式理论研究斯普林格出版社,1991年版。

21.Huttenlocher, D.， Klanderman, G.， Rucklidge, W.使用hausdorff距离比较图像。IEEE反式。模式肛门。马赫。智能。15， 9(1993)， 850863。

22.Lamdan, Y. Wolfson, H. Geometric哈希:一种通用而高效的基于模型的识别方案。在IEEE计算机视觉国际会议(1988)。

23.LeCun, Y.， Bottou, L.， Bengio, Y.， Haffner, P.基于梯度的学习在文档识别中的应用。Proc IEEE 86。， 11(1998)， 22782324。

24.从单一二维图像识别三维物体。Artif。智能。31， 3(1987)， 355395。

25.张晓东，王晓东，张晓东。三维图形空间组织的表征与识别。Proc。罗伊。Soc。Lond。B杂志。Sci 200。， 1140(1978)， 269294。

26.芒迪，J.，齐泽曼，A.等。计算机视觉中的几何不变性，第92卷，麻省理工学院出版社，剑桥，马萨诸塞州，1992年。

27.Murase, H.， Nayar, S.视觉学习和从外观识别三维物体。Int。j .第一版。粘度14， 1(1995)， 524。

28.Schneiderman, H.， Kanade, T.一种用于人脸和汽车的三维物体检测的统计方法。在计算机视觉与模式识别会议(2000)。

29.宋k.k.，波焦，T.基于实例学习的基于视图的人脸检测。IEEE反式。模式肛门。马赫。智能。20， 1(1998)， 3951。

30.维奥拉，P.，琼斯，M.鲁棒实时人脸检测。Int。j .第一版。粘度57， 2(2004)， 137154。

31.M. Weber, M. Welling, M. Perona, P.迈向对象范畴的自动发现。在计算机视觉与模式识别会议(2000)。

32.杨勇，杨宇军，王晓东。基于柔性混合部件的关节姿态估计。在计算机视觉与模式识别会议(2011)。

33.Yuille, A.， Hallinan, P.， Cohen, D.使用可变形模板从人脸中提取特征。Int。j .第一版。粘度8， 2(1992)， 99111。

34.朱晓东，朱晓东，朱晓东。野外环境下的人脸检测、姿态估计和地标定位。在计算机视觉与模式识别会议(2012)。

回到顶部

作者

佩德罗Felzenszwalb布朗大学工程学院和计算机科学系。

罗斯Girshick电,加州大学伯克利分校。

大卫McAllester芝加哥丰田技术研究所。

天神Ramanan加州大学欧文分校计算机科学系。

回到顶部

脚注

a.潜支持向量机相当于多实例支持向量机。²

这个作品首次出现在IEEE CVPR2008会议而在模式分析与机器智能学报，第32卷第9期，2010年9月。

回到顶部

数据

图1。检测得到的单组件人模型。该模型由一个粗根滤波器(a)、几个高分辨率部分滤波器(b)和一个空间模型定义，用于每个部分相对于根的位置(c)。滤波器为定向梯度特征的直方图指定权重。他们的可视化显示了不同方向上的正权重。空间模型的可视化反映了将一个部件的中心相对于根放置在不同位置的“成本”。

图2。在一个尺度上的探测。根过滤器和部分过滤器的响应计算在不同分辨率的特征映射上。利用距离变换对所有可能的零件放置情况有效地求解方程(7)。将转换后的响应组合起来，生成每个根位置的最终得分。我们展示“头部”和“右肩”部分的反应和转换反应。注意“头部”过滤器是如何区分的。在这个尺度上，综合的分数清楚地显示出两种很好的假设。

图3。初始化。(a)汽车模型的初始根过滤器。(b)和(c)从(a)初始化的部件过滤和变形模型。

图4。在PASCAL 2010数据集中学习的一些模型的可视化。

图5。PASCAL 2007数据集上的高分检测示例。红色框的图像(每行最后两幅)说明了每个类别的假阳性。许多假阳性(如人和猫)是由于严格的边界框重叠标准。

图6。在PASCAL 2007数据集的人员类别上训练的模型的精度/召回曲线．我们展示了具有和不具有部件的1和3组分模型的结果。对于三分量模型，我们展示了模型被强制对称和模型被允许不对称的结果，左向和右向在训练和测试期间被视为潜在变量(“潜在L/R”)。在括号中，我们显示了每个模型的平均精度得分。

回到顶部

表

表1。PASCAL VOC 2010结果。

回到顶部

版权由所有人/作者持有。