ACM通信

首页 / 杂志存档 / 2017年6月(第60卷第6期) / ImageNet分类与深度卷积神经… /全文
研究突出了
基于深度卷积神经网络的ImageNet分类

作者:Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton
ACM通信，2017年6月，第60卷第6期，84-90页
10.1145 / 3065386
评论
认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享在黑客新闻上分享在推特上分享在Facebook上分享
 分享

第一列为5张ILSVRC-2010测试图像。剩下的列表示训练图像，在最后一个隐层中产生的特征向量与测试图像的特征向量的欧氏距离最小。

我们训练了一个大型的深度卷积神经网络，将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像分为1000个不同的类。在测试数据上，我们分别实现了37.5%和17.0%的top-1和top-5错误率，这比之前最先进的技术要好得多。该神经网络有6000万个参数和65万个神经元，由5个卷积层组成，其中一些层后面是最大池化层，以及3个完全连接层，最后是1000路软最大。为了提高训练速度，我们使用了非饱和神经元和卷积运算的一个非常高效的GPU实现。为了减少全连接层中的过拟合，我们采用了最近开发的称为“dropout”的正则化方法，该方法被证明非常有效。我们还在ILSVRC-2012竞赛中输入了该模型的变体，并获得了15.3%的前5名测试错误率，而第二名的测试错误率为26.2%。

回到顶部

1.序言

四年前，Yann LeCun和他的合作者的一篇论文被主要的计算机视觉会议拒绝，理由是它使用了神经网络，因此没有提供如何设计视觉系统的见解。当时，大多数计算机视觉研究人员认为，视觉系统需要通过对任务性质的详细理解来精心手工设计。他们认为，将自然图像中的物体分类的任务永远不会通过简单地向神经网络提供图像示例和其中包含的物体的名称来解决，神经网络从这些训练数据中获取所有的知识。

视觉研究社区中的许多人没有意识到的是，那些需要了解该领域的程序员仔细手工设计的方法，与那些用强大的通用学习过程取代程序员的方法相比，并不具有扩展性。有了足够的计算和足够的数据，对于需要集成许多不同的、有噪声的线索的复杂任务，学习胜过编程。

四年前，当我们在多伦多大学(University of Toronto)的时候，我们名为“监督”(SuperVision)的深度神经网络将识别自然图像中的物体的错误率几乎减半，并引发了计算机视觉领域一场迟来的范式转变。<一个href="#F4">图4展示了一些监管可以做什么工作的例子。

监管是从20世纪80年代被广泛研究的多层神经网络发展而来的。这些网络使用了多层特征检测器，这些检测器都是从训练数据中学习来的。神经科学家和心理学家曾假设，这种特征探测器的层次结构将提供一种强大的方法来识别物体，但他们不知道如何学习这种层次结构。在20世纪80年代，人们非常兴奋，因为几个不同的研究小组发现，多层特征检测器可以通过一种称为反向传播的相对简单的算法有效地训练<年代up>18，<一个href="#R22">22，<一个href="#R21">21，<一个href="#R33">33为了计算，对于每一张图像，整个网络的分类性能如何依赖于每个连接上的权重值。

反向传播在各种任务中都能很好地工作，但在20世纪80年代，它没有达到其倡导者的很高期望。特别是，事实证明，学习具有许多层的网络是非常困难的，而这些层恰恰是应该给出最令人印象深刻的结果的网络。许多研究人员错误地得出结论，认为从随机初始权值学习深度神经网络太难了。20年后，我们知道哪里出了问题:深度神经网络要想大放异彩，就需要多得多的标记数据和大量的计算。

回到顶部

2.简介

目前的目标识别方法主要使用机器学习方法。为了提高它们的性能，我们可以收集更大的数据集，学习更强大的模型，并使用更好的技术来防止过拟合。直到最近，标记图像的数据集都相对较小，只有几万张图像(例如NORB，<年代up>19Caltech-101/256,<年代up>8，<一个href="#R10">10和CIFAR-10/100<年代up>14)．这种规模的数据集可以很好地解决简单的识别任务，特别是如果用标签保存转换增强它们的话。例如，MNIST数字识别任务的当前最佳错误率(<0.3%)接近人类性能。<年代up>5但是，在现实环境中的物体表现出相当大的可变性，因此，为了学会识别它们，有必要使用更大的训练集。事实上，小图像数据集的缺点已经被广泛认识到(例如，参考文献。<年代up>25)，但直到最近才有可能收集数百万张图像的标记数据集。新的大型数据集包括LabelMe，<年代up>28它由数十万张完全分割的图像组成，还有ImageNet，<年代up>7它包含超过1500万张标记的高分辨率图像，涵盖22000多个类别。

为了从数百万张图像中了解数千个物体，我们需要一个具有很大学习能力的模型。然而，对象识别任务的巨大复杂性意味着即使像ImageNet这样大的数据集也不能指定这个问题，因此我们的模型也应该有大量的先验知识来补偿我们没有的所有数据。卷积神经网络(CNNs)就是这样一类模型。<年代up>9，<一个href="#R15">15，<一个href="#R17">17，<一个href="#R19">19，<一个href="#R21">21，<一个href="#R26">26，<一个href="#R32">32它们的容量可以通过改变它们的深度和宽度来控制，而且它们还对图像的本质(即统计的平稳性和像素依赖性的局部性)做出强有力的、大多数是正确的假设。因此，与具有相同大小层的标准前馈神经网络相比，cnn的连接和参数要少得多，因此更容易训练，而理论上最好的性能可能只会略差。

尽管cnn具有吸引人的特性，尽管其本地架构相对高效，但要大规模应用于高分辨率图像，它们的成本仍然令人望而却步。幸运的是，当前的gpu与高度优化的2D卷积实现相结合，功能强大到足以促进训练有趣的大型cnn，而最近的数据集(如ImageNet)包含足够的标记示例来训练此类模型，而不会出现严重的过拟合。

本文的具体贡献如下:我们在ImageNet大规模视觉识别挑战(ILSVRC)-2010和ILSVRC-2012比赛中使用ImageNet子集训练了迄今为止最大的cnn之一<年代up>2并取得了迄今为止在这些数据集上报告过的最好的结果。我们为二维卷积和训练cnn所固有的所有其他操作编写了高度优化的GPU实现，并将其公开。<年代up>一个我们的网络包含了许多新的和不寻常的特性，这些特性提高了它的性能，减少了它的训练时间，详见第4节。我们的网络的规模使过拟合成为一个重要问题，即使有120万个标记的训练示例，因此我们使用了几种有效的技术来防止过拟合，这些技术在第5节中描述。我们最终的网络包含五个卷积层和三个完全连接层，这个深度似乎很重要:我们发现删除任何卷积层(每个卷积层包含的模型参数不超过1%)会导致较差的性能。

最后，网络的大小主要受限于当前gpu上可用的内存量，以及我们愿意容忍的训练时间。我们的网络需要5到6天在两台GTX 580 3GB gpu上进行训练。我们所有的实验都表明，只要等待更快的gpu和更大的数据集出现，我们的结果就可以得到改善。

回到顶部

3.数据集

ImageNet是一个包含超过1500万张标记高分辨率图像的数据集，属于大约22000个类别。这些图片是从网上收集的，并由人工标记人员使用亚马逊的土耳其机械(Mechanical Turk)众包工具进行标记。从2010年开始，作为Pascal视觉对象挑战赛的一部分，一项名为ImageNet大规模视觉识别挑战赛(ILSVRC)的年度竞赛已经举行。ILSVRC使用ImageNet的一个子集，在1000个类别中每个类别大约有1000张图像。总共大约有120万张训练图像、5万张验证图像和15万张测试图像。

ILSVRC-2010是ILSVRC中唯一一个测试集标签可用的版本，因此这是我们进行大多数实验的版本。由于我们也在ILSVRC-2012竞赛中加入了我们的模型，在第7节中我们也报告了这个版本的数据集的结果，其中测试集的标签是不可用的。在ImageNet上，习惯上报告两个错误率:top-1和top-5，其中top-5错误率是测试图像中正确标签不在模型认为最可能的五个标签中的比例。

ImageNet由可变分辨率的图像组成，而我们的系统需要一个恒定的输入维度。因此，我们将图像采样到256 × 256的固定分辨率。给定一个矩形图像，我们首先缩放图像，使较短的一侧长度为256，然后从结果图像中裁剪出中央的256 × 256补丁。除了从每个像素中减去训练集的平均活动外，我们没有以任何其他方式预处理图像。所以我们在像素的原始RGB值(居中)上训练我们的网络。

回到顶部

4.该体系结构

我们的网络架构总结在<一个href="#F2">图2．它包含八个学习层，五个是卷积层，三个是完全连接层。下面，我们将描述我们的网络架构的一些新颖或不寻常的特征。第4.14.4节是根据我们对其重要性的估计进行排序的，最重要的排在前面。

4.1.修正线性单元非线性

模拟神经元输出的标准方法<我>f作为输入的函数<我>x是用<我>f（<我>x) =双曲正切(<我>x)或<我>f（<我>x) = (1 +<我>e<年代up>x）<年代up>1．在梯度下降的训练时间方面，饱和非线性比非饱和非线性要慢得多<我>f(x) = max (0,<我>x)．继奈尔和辛顿之后，<年代up>24我们把这种非线性的神经元称为整流线性单元(ReLUs)。带有ReLUs的深度cnn的训练速度比使用tanh单元的速度快几倍。这在<一个href="#F1">图1，它显示了对于一个特定的四层卷积网络，在CIFAR-10数据集上达到25%训练误差所需的迭代次数。这幅图表明，如果我们使用传统的饱和神经元模型，我们就无法用如此大的神经网络进行这项工作的实验。

我们不是第一个在cnn中考虑替代传统神经元模型的人。例如，Jarrett等人。<年代up>13声明非线性<我>f（<我>x) = |双曲正切(<我>x)|在Caltech-101数据集上的对比归一化和本地平均池化工作得特别好。然而，在这个数据集上，主要关注的是防止过拟合，所以他们观察到的效果与我们使用ReLUs时报告的加速拟合训练集的能力不同。快速学习对在大数据集上训练的大模型的性能有很大影响。

4.2.在多个gpu上进行培训

单个GTX 580 GPU只有3GB内存，这限制了可以在其上训练的网络的最大大小。结果表明，120万个训练示例足以训练一个GPU无法容纳的大网络。因此，我们将网络分布在两个gpu上。目前的gpu特别适合跨gpu并行，因为它们能够直接从另一个内存中读取和写入，而不需要通过主机内存。我们采用的并行化方案基本上是将一半的内核(或神经元)放在每个GPU上，还有一个额外的技巧:GPU只在特定层进行通信。这意味着，例如，第3层的内核从第2层的所有内核映射中获取输入。然而，第4层的内核只从位于同一GPU上的第3层的内核映射获取输入。选择连接模式是交叉验证的一个问题，但这允许我们精确地调整通信量，直到它占计算量的一个可接受的比例。

结果的体系结构有点类似于Cirean等人使用的“柱状”CNN，<年代up>4除了我们的列不是独立的(参见<一个href="#F2">图2)．与在一个GPU上训练的每个卷积层中有一半内核的网络相比，该方案将我们的top-1和top-5错误率分别降低了1.7%和1.2%。双gpu网络的训练时间比单gpu网络略短。<年代up>b

4.3.当地反应正常化

relu有一个理想的特性，即它们不需要输入归一化来防止饱和。如果至少有一些训练实例产生正向输入到ReLU，学习就会在那个神经元中发生。然而，我们仍然发现下面的局部归一化方案有助于泛化。表示由<我>一个<年代up>我_{x, y用核函数计算神经元的活动<我>我在位置(<我>x, y)，然后应用ReLU非线性，响应归一化活度<我>b<年代up>我_{x, y由表达式给出}}

哪里的总和超过了<我>n在相同空间位置的“相邻”内核映射，和<我>N是该层中核的总数。内核映射的顺序当然是任意的，并且是在训练开始之前确定的。这种反应正常化实现了一种由真实神经元中发现的类型激发的横向抑制形式，在使用不同核计算的神经元输出之间创造了大型活动的竞争。常数<我>k, n,,<我>是使用验证集确定值的超参数;我们使用<我>k= 2,<我>n= 5,<我>= 10<年代up>4,<我>= 0.75。我们在某些层中应用了ReLU非线性之后应用了这个归一化(见第4.5节)。

该方案与Jarrett等人的局部对比归一化方案有一些相似之处，<年代up>13但我们的方法应该更准确地称为“亮度归一化”，因为我们没有减去平均活动。响应归一化将我们的前1和前5错误率分别降低了1.4%和1.2%。我们还在CIFAR-10数据集上验证了该方案的有效性:一个四层CNN在未归一化的情况下实现了13%的测试错误率，在归一化后实现了11%的测试错误率。<年代up>c

4.4.重叠的池

cnn中的池化层汇总了同一内核映射中相邻神经元组的输出。传统上，由相邻的池单元所总结的邻域是不重叠的(例如Refs。<年代up>5，<一个href="#R13">13，<一个href="#R20">20.)．更准确地说，池化层可以被认为是由间隔的池化单元网格组成<我>年代像素分开，每一个都总结了一个大小相近的社区<我>z×<我>z以池化单元的位置为中心。如果我们将<我>年代＝<我>z，我们就得到了通常在cnn中使用的传统本地池。如果我们将<我>年代<<我>z，得到重叠池。这是我们在整个网络中使用的<我>年代= 2,<我>z= 3。与不重叠方案相比，该方案将top-1和top-5错误率分别降低了0.4%和0.3%<我>年代= 2,<我>z= 2，产生等效尺寸的输出。在训练过程中，我们通常观察到重叠池的模型过拟合难度略高。

4.5.总体架构

现在我们准备描述我们的CNN的整体架构。中所描绘的一样<一个href="#F2">图2，该网包含8层带权重;前五个是卷积的，剩下的三个是完全连通的。最后一个全连接层的输出被馈送到1000路softmax，它产生了1000个类标签的分布。我们的网络最大化了多项逻辑回归目标，这相当于最大化了预测分布下正确标签的对数概率跨训练案例的平均值。

第二层、第四层和第五层的内核只与位于同一GPU上的上一层的内核映射相连<一个href="#F2">图2)．第三卷积层的核与第二层的所有核映射相连。全连通层中的神经元与前一层中的所有神经元相连。响应归一化层紧随第一和第二卷积层。在4.4节中描述的那种最大池化层紧随响应归一化层和第五个卷积层。ReLU非线性应用于每一个卷积和全连通层的输出。

第一卷积层用96个大小为11 × 11 × 3的核对224 × 224 × 3输入图像进行滤波，步长为4像素(这是核图中相邻神经元的感受场中心之间的距离)。第二个卷积层将第一个卷积层的输出(响应归一化和池化)作为输入，并用256个大小为5 × 5 × 48的核对其进行过滤。第三、第四和第五卷积层相互连接，没有任何中间的池化层或规范化层。第三个卷积层有384个大小为3 × 3 × 256的核，连接到第二个卷积层的(归一化的、池化的)输出。第四卷积层有384个3 × 3 × 192大小的核，第五卷积层有256个3 × 3 × 192大小的核。完全连接的层每层有4096个神经元。

回到顶部

5.减少过度拟合

我们的神经网络架构有六千万个参数。尽管ILSVRC的1000个类使每个训练示例对从图像到标签的映射施加10位约束，但事实证明，这不足以在没有相当大的过拟合的情况下学习如此多的参数。下面，我们将描述对抗过拟合的两种主要方法。

5.1.数据增加

减少图像数据过拟合的最简单和最常见的方法是使用标签保持转换(例如Refs)人为地扩大数据集。<年代up>4，<一个href="#R5">5，<一个href="#R30">30.)．我们采用了两种不同的数据增强形式，这两种形式都允许用很少的计算从原始图像生成转换后的图像，因此转换后的图像不需要存储在磁盘上。在我们的实现中，转换后的图像是在CPU上用Python代码生成的，而GPU正在训练前一批图像。因此，这些数据增强方案实际上是无需计算的。

第一种形式的数据增强包括生成图像平移和水平反射。我们从256 × 256的图像中提取随机的224 × 224的斑块(以及它们的水平反射)，并在这些提取的斑块上训练我们的网络。<年代up>d这使我们的训练集的规模增加了2048倍，尽管最终得到的训练示例当然是高度相互依赖的。如果没有这个方案，我们的网络将遭受严重的过拟合，这将迫使我们使用更小的网络。在测试时，网络通过提取5个224 × 224的补丁(四个角补丁和中心补丁)及其水平反射(共10个补丁)进行预测，并将网络的softmax层对这10个补丁的预测求平均值。

第二种形式的数据增强包括改变训练图像中RGB通道的强度。具体来说，我们对整个ImageNet训练集的RGB像素值集执行PCA。对每个训练图像，我们添加找到的主成分的倍数，其大小与对应的特征值乘以一个随机变量成正比，该随机变量来自均值为0和标准差为0.1的高斯分布。因此给每个RGB图像像素<我mg src="https://dl.acm.org/cms/attachment/e5479520-24b8-42a8-b1f6-948d6fa7d492/cacm6006_a.gif" border="0" hspace="2" alt="cacm6006_a.gif">我们增加了以下数量:

在哪里p_我而且<我>_我是<我>我RGB像素值的3 × 3协方差矩阵的第th特征向量和特征值，分别为<我>_{我是前面提到的随机变量。每一个<我>_{我只为特定训练图像的所有像素绘制一次，直到该图像再次用于训练，这时将重新绘制该图像。该方案近似地捕捉了自然图像的一个重要特性，即物体的一致性不受光照强度和颜色的变化影响。该方案将前1错误率降低了1%以上。}}

5.2.辍学

结合许多不同模型的预测是减少测试误差的一种非常成功的方法，<年代up>1，<一个href="#R3">3.但对于已经需要几天训练的大型神经网络来说，这似乎太昂贵了。然而，有一个非常有效的模型组合版本，在训练过程中只需要花费大约两倍的成本。最近引入的一种叫做“辍学”的技术，<年代up>12包含将每个隐藏神经元的输出设为零，概率为0.5。以这种方式被“丢弃”的神经元不参与正向传递，也不参与反向传播。所以每次输入出现时，神经网络取样一个不同的体系结构，但所有这些体系结构都共享权重。这种技术减少了神经元复杂的协同适应，因为一个神经元不能依赖特定的其他神经元的存在。因此，它被迫学习更强健的特征，以便与其他神经元的许多不同随机子集结合起来使用。在测试时，我们使用所有的神经元，但将它们的输出乘以0.5，这是一个合理的近似，取由指数级多的退出网络产生的预测分布的几何平均值。

的前两个完全连接层使用dropout<一个href="#F2">图2．没有dropout，我们的网络表现出严重的过拟合。Dropout大约使收敛所需的迭代次数翻倍。

回到顶部

6.学习的细节

我们使用随机梯度下降训练我们的模型，批次大小为128个样本，动量为0.9，权重衰减为0.0005。我们发现，这少量的权值衰减对模型的学习很重要。换句话说，这里的权值衰减不仅是正则化的:它减少了模型的训练误差。权重的更新规则<我>w是

在哪里<我>我是迭代索引，<我>v动量是可变的，<我>是学习率，和<我mg src="https://dl.acm.org/cms/attachment/8291442b-50c6-4c4b-bb76-1ea58a2b5e62/cacm6006_b.gif" border="0" hspace="2" alt="cacm6006_b.gif">平均值除以<我>我th批<我>D<年代ub>我关于目标的导数<我>w,评估<我>w<年代ub>我．

我们从标准差为0.01的零均值高斯分布初始化每一层的权重。我们用常数1初始化了第二层、第四层和第五卷积层以及全连接隐层中的神经元偏差。这种初始化通过向relu提供积极的输入来加速早期阶段的学习。我们用常数0初始化其余层中的神经元偏差。

我们对所有层使用了相同的学习率，并在整个训练过程中手动调整学习率。我们遵循的启发式是，当验证错误率随着当前学习率停止改善时，学习率除以10。学习率初始值为0.01，终止前降低3倍。我们通过120万张图像的训练集对网络进行了大约90个周期的训练，在两台NVIDIA GTX 580 3GB gpu上花了56天时间。

回到顶部

7.结果

我们在ILSVRC-2010上的结果总结在<一个href="#T1">表1．我们的网络实现了top-1和top-5测试集错误率分别为37.5%和17.0%。<年代up>eILSVRC-2010竞赛中获得的最佳表现是47.1%和28.2%，该方法将六个稀疏编码模型对不同特征进行训练后产生的预测取平均值，<年代up>2从那以后发表的最佳结果是45.7%和25.7%，该方法使用两种分类器对从两种密集采样特征计算的费雪向量(FVs)进行训练的预测取平均值。<年代up>29

我们还将我们的模型加入了ILSVRC-2012竞赛，并在<一个href="#T2">表2．由于ILSVRC-2012测试集标签不是公开的，我们不能报告我们尝试过的所有模型的测试错误率。在本段的其余部分，我们交替使用验证和测试错误率，因为根据我们的经验，它们的差异不超过0.1%(参见<一个href="#T2">表2)．本文所描述的CNN的前5名错误率为18.2%。将五个相似cnn的预测平均起来，错误率为16.4%。训练一个CNN，在最后一个池化层上加上额外的第六个卷积层，对整个ImageNet秋季2011版本进行分类(15M张图片，22K个类别)，然后在ILSVRC-2012上“微调”，错误率为16.6%。将两个预先训练的cnn对整个2011年秋季版本的预测与上述五个cnn的预测平均起来，错误率为15.3%。第二好的竞赛条目的错误率为26.2%，该方法将几个分类器在不同类型的密集采样特征计算的fv上训练的预测平均起来。<年代up>6

最后，我们还报告了2009年秋季版ImageNet的错误率，该版本包含10,184个类别和890万张图片。在这个数据集上，我们遵循文献中的惯例，使用一半的图像进行训练，另一半用于测试。由于没有建立测试集，我们的分割必然与前面作者使用的分割不同，但这不会显著影响结果。我们在该数据集上的前1和前5错误率分别为67.4%和40.9%，这是通过上述网络实现的，但在最后一个池化层上增加了额外的第六卷积层。在这个数据集上发表的最佳结果是78.1%和60.9%。<年代up>23

7.1.定性评估

图3显示由网络的两个数据连接层学习的卷积核。该网络已经学习了各种频率和方向选择的核，以及各种颜色的斑点。请注意两个gpu所表现出的专门化，这是4.5节中描述的受限连接的结果。GPU 1上的内核在很大程度上与颜色无关，而GPU 2上的内核在很大程度上与颜色相关。这种专门化发生在每次运行期间，并且独立于任何特定的随机权重初始化(对gpu的重新编号取模)。

在左边的面板<一个href="#F4">图4我们通过计算8张测试图像上的前5个预测，定性地评估网络学习到的内容。请注意，即使偏离中心的物体，如左上角的螨虫，也能被网识别。前5名中的大多数标签看起来都是合理的。例如，只有其他类型的猫才被认为是豹的合理标签。在某些情况下(格栅，樱桃)，照片的预期焦点确实是模糊的。

另一种探测网络视觉知识的方法是考虑图像在最后4096维隐藏层诱导的特征激活。如果两个图像产生的特征激活向量具有较小的欧氏分离，我们可以说，较高层次的神经网络认为它们是相似的。<一个href="#F4">图4显示五张来自测试集的图像和六张来自训练集的图像，根据这一度量，它们与每一张图像最相似。注意，在像素级别上，检索到的训练图像通常不接近第一列中的查询图像的L2。例如，找回的狗和大象会摆出各种各样的姿势。我们在补充材料中提供了更多测试图像的结果。

通过使用两个4096维实值向量之间的欧氏距离计算相似性是低效的，但可以通过训练自动编码器将这些向量压缩为短二进制代码来提高效率。这将产生一个比对原始像素应用自动编码器更好的图像检索方法，<年代up>16它不使用图像标签，因此倾向于检索具有相似边缘模式的图像，无论它们在语义上是否相似。

回到顶部

8.讨论

我们的结果表明，使用纯监督学习，一个大型的、深度的CNN能够在一个高度具有挑战性的数据集上取得破纪录的结果。值得注意的是，如果删除一个卷积层，我们的网络性能会下降。例如，删除任何中间层都会导致网络的top-1性能损失约2%。所以深度对我们的研究结果非常重要。

为了简化我们的实验，我们没有使用任何无监督的预训练，尽管我们期望它会有所帮助，特别是当我们获得足够的计算能力来显著增加网络的大小，而没有获得相应的标记数据量的增加时。到目前为止，我们的结果已经得到了改善，因为我们把我们的网络做得更大了，训练的时间也更长了，但为了匹配人类视觉系统的下时间通路，我们还有很多数量级的工作要做。最终，我们希望在视频序列上使用非常大且深度的卷积网络，在这些视频序列中，时间结构提供了非常有用的信息，也就是说，静态图像中缺失的或远不明显的信息。

回到顶部

9.后记

计算机视觉界对《SuperVision》的成功的反应令人印象深刻。在接下来的一两年里，他们转而使用深度神经网络，现在谷歌、Facebook、微软、百度和许多其他公司都广泛使用了这种网络。到2015年，更好的硬件，更多的隐藏层，以及大量的技术进步，使深度卷积神经网络的错误率进一步降低了三倍，因此它们现在非常接近人类在静态图像上的表现。<年代up>11，<一个href="#R31">31这场革命的大部分功劳应该归于那些花了多年时间开发cnn技术的先驱者，但不可或缺的缺失成分是由菲菲等人提供的。<年代up>7他花了很大的精力来制作一个标记数据集这个数据集最终大到足以展示神经网络的真正功能。

回到顶部

参考文献

1.贝尔，R，科伦，Y. netflix奖励挑战的教训。<我>ACM SIGKDD空洞。Newsl。9， 2(2007)， 7579。

2.伯格阿，邓杰，飞飞，李磊。2010年大规模视觉识别挑战赛。<一个href="http://www.image-net.org/challenges">www.image-net.org/challenges．2010.

3.随机森林。<我>马赫。学习。45， 1(2001)， 532。

4.Cirean, D.， Meier, U.， Masci, J.， Gambardella, L.， Schmidhuber, J.用于视觉对象分类的高性能神经网络。<我>Arxiv预印本Arxiv: 1102.0183, 2011年。

5.Cirean, D, Meier, U. Schmidhuber, J.基于多列深度神经网络的图像分类。<我>Arxiv预印本Arxiv: 1202.2745, 2012年。

6.邓娇，伯格，Satheesh, S，苏，H，科斯拉，A，飞飞，l<我>ilsvrc - 2012(2012)。

7.邓军，董伟，苏彻，李丽娟。，Li, K., Fei-Fei, L. ImageNet: A large-scale hierarchical image database. In<我>CVPR09(2009)。

8.飞飞，L.， Fergus, R.， Perona, P.从少数训练示例学习生成视觉模型:在101个对象类别上测试的增量贝叶斯方法。<我>第一版。视觉图像理解106， 1(2007)， 5970。

9.新cognitron:不受位置移动影响的模式识别机制的自组织神经网络模型。<我>医学杂志。Cybern 36。， 4(1980)， 193202。

10.Griffin, G.， Holub, A.， Perona, P. Caltech-256对象类别数据集。技术报告7694，加州理工学院，2007。

11.何凯，张晓霞，任少华，孙杰。基于深度残差学习的图像识别。<我>arXiv预印本arXiv: 1512.03385, 2015年。

12.Hinton, G.， Srivastava, N.， Krizhevsky, A.， Sutskever, I.， Salakhutdinov, R.通过防止特征检测器的共适应改进神经网络。<我>arXiv预印本arXiv: 1207.0580(2012)。

13.Jarrett, K.， Kavukcuoglu, K.， Ranzato, M.A, LeCun, Y.物体识别的最佳多阶段体系结构是什么?在<我>计算机视觉国际会议(2009)。IEEE 21462153。

14.从微小的图像中学习多层特征。硕士论文，多伦多大学计算机科学系，2009年。

15.cifar-10上的卷积深度信念网络。<我>未出版的手稿, 2010年。

16.Krizhevsky, A.， Hinton, G.使用非常深的自动编码器进行基于内容的图像检索。在<我>ESANN(2011)。

17.LeCun, Y.， Boser, B.， Denker, J.， Henderson, D.， Howard, R.， Hubbard, W.， Jackel, L.等。带有反向传播网络的手写数字识别。在<我>神经信息处理系统的研究进展(1990)。

18.不对称阈值网络的学习方案。1985.

19.黄芳，李晓明，李晓明，黄晓明，李晓明，李晓明，李晓明，李晓明。具有姿态和光照不变性的一般物体识别学习方法。在<我>2004年IEEE计算机学会计算机视觉与模式识别会议论文集，2004,CVPR 2004。卷2》(2004)。IEEE, II97。

20.LeCun, Y.， Kavukcuoglu, K.， Farabet, C.卷积网络及其在视觉中的应用。在<我>2010年IEEE电路与系统国际研讨会论文集(2010)。IEEE 253256。

21.Lee, H.， Grosse, R.， Ranganath, R.， Ng, A.基于卷积深度信念网络的可扩展无监督分层表示学习。在<我>第26届国际机器学习年会论文集(2009)。ACM, 609616年。

22.Linnainmaa, S. Taylor展开的累积舍入误差。<我>有些号码。数学。162(1976)， 146160。

23.Mensink, T.， Verbeek, J.， Perronnin, F.， Csurka, G.用于大规模图像分类的度量学习:以接近零的代价推广到新类。在<我>ECCV欧洲计算机视觉会议(2012年10月，意大利佛罗伦萨)。

24.修正线性单元改进了受限玻尔兹曼机。在<我>第27届国际机器学习会议论文集(2010)。

25.Pinto, N.， Cox, D.， DiCarlo, J.为什么现实世界的视觉对象识别很难?<我>公共科学图书馆第一版。医学杂志4， 1 (2008)， e27。

26.Pinto, N.， Doukhan, D.， DiCarlo, J.， Cox, D.一种发现良好生物视觉表现形式的高通量筛选方法。<我>公共科学图书馆第一版。医学杂志。， 11 (2009)， e1000579。

27.鲁梅尔哈特，d.e.，辛顿，g.e.，威廉姆斯，R.J.学习错误传播的内部表示。技术报告，DTIC文件，1985年。

28.Russell, BC, Torralba, A.， Murphy, K.， Freeman, W. Labelme:一个用于图像注释的数据库和基于web的工具。<我>Int。J.康普特，77， 1(2008)， 157173。

29.Sánchez，张晓东，张晓东。基于高维特征压缩的大尺度图像分类方法。在<我>计算机视觉与模式识别(CVPR)会议，2011(2011)。IEEE 16651672。

30.Simard, P.， Steinkraus, D.， Platt, J.卷积神经网络应用于可视化文档分析的最佳实践。在<我>第七届文献分析与识别国际会议论文集。第二卷(2003)，958962。

31.Szegedy, C.， Liu, W.， Jia, Y.， Sermanet, P.， Reed, S.， angelov, D.， Erhan, D.， Vanhoucke, V.， Rabinovich, A.深入卷积。在<我>IEEE计算机视觉与模式识别会议论文集(2015), 19。

32.Turaga, S.， Murray, J.， Jain, V.， Roth, F.， Helmstaedter, M.， Briggman, K.， Denk, W.， Seung, H.卷积网络可以学习生成用于图像分割的亲和图。<我>神经第一版。22， 2(2010)， 511538。

33.超越回归:行为科学中预测和分析的新工具，1974。

回到顶部

作者

亚历克斯Krizhevsky（<一个href="mailto:akrizhevsky@google.com">akrizhevsky@google.com),谷歌(goog . o:行情)。

杰弗里·e·辛顿（<一个href="mailto:geoffhinton@google.com">geoffhinton@google.com),谷歌(goog . o:行情)。

Ilya Sutskever（<一个href="mailto:ilyasu@openai.com">ilyasu@openai.com), OpenAI。

回到顶部

脚注

一个。<一个href="https://code.google.com/p/cuda-convnet/">http://code.google.com/p/cuda-convnet/．

b.在最终的卷积层中，单gpu网络的内核数实际上与双gpu网络的内核数相同。这是因为网络的大部分参数都在第一个完全连接层中，该层以最后一个卷积层作为输入。因此，为了使两个网具有大致相同数量的参数，我们没有将最终卷积层的大小减半(也没有将后面的全连通层减半)。因此，这种比较偏向于单gpu网络，因为它比双gpu网络的“一半大”。

c.由于篇幅所限，我们无法对该网络进行详细描述，但这里提供的代码和参数文件对其进行了精确的说明:<一个href="https://code.google.com/p/cuda-convnet/">http://code.google.com/p/cuda-convnet/．

d.这就是为什么输入图像在<一个href="#F2">图2是224 × 224 × 3维的。

e.如5.1节所述，在10个补丁中不进行平均预测的错误率分别为39.0%和18.3%。

本文的原始版本发表在<我>二十五次会议的会议记录<年代up>th神经信息处理系统国际会议(Lake Tahoe, NV, 2012年12月)，10911105。

回到顶部

数据

图1。具有ReLUs的四层卷积神经网络(实线)在CIFAR-10上达到25%的训练错误率，比具有tanh神经元的等效网络(虚线)快6倍。每个网络的学习率是独立选择的，以使训练尽可能快。没有使用任何形式的正规化。这里所展示的效果的大小随着网络结构的不同而不同，但具有relu的网络始终比饱和神经元的网络学习速度快几倍。

图2。CNN的架构说明，明确显示了两个gpu之间的职责划分。一个GPU运行图形顶部的层部件，另一个运行图形底部的层部件。gpu只在某些层进行通信。网络的输入为150,528维，网络剩余层的神经元数量为290,400186,62464,89664,89643,264409640961000。

图3。由第一卷积层在224 × 224 × 3的输入图像上学习到96个大小为11 × 11 × 3的卷积核。在GPU 1上学习前48个内核，在GPU 2上学习后48个内核(详见7.1节)。

图4。(左)8个ILSVRC-2010测试图像和我们的模型认为最可能的5个标签。正确的标签被写在每张图片下面，分配给正确标签的概率也用红色条显示(如果它恰好在前5)。(右)第一列的5张ILSVRC-2010测试图片。其余的列显示了六个训练图像，它们在最后一个隐层中产生与测试图像的特征向量的欧氏距离最小的特征向量。

回到顶部

表

表1。ILSVRC-2010测试集的结果比较。

表2。ILSVRC-2012验证集和测试集错误率的比较。

回到顶部

版权归作者/所有者所有。

没有发现记录

文章内容:

摘要

 1.序言

 2.简介

 3.数据集

 4.该体系结构

 5.减少过度拟合

 6.学习的细节

 7.结果

 8.讨论

 9.后记

 参考文献

 作者

 脚注

 数据

 表

更多新闻和观点

 加强对个人资料的保护
麻省理工学院的新闻

 仿真程序的版权影响
帕梅拉·萨缪尔森

 学生谈论道德问题
罗宾·k·希尔

对于作者

 为广告客户<我mg src="//www.eqigeno.com/images/icons/new_page.png" alt="为广告客户">

隐私政策

 帮助

 联系我们

 手机网站

vwin德赢ac米兰合作