acm-header
登录

ACM通信

研究突出了

技术视角:是什么引导计算机视觉走向深度学习?


我们正处于将人工神经网络作为机器学习的领先范式的第三波兴趣之中。第一次浪潮可以追溯到20世纪50年代,第二次浪潮可以追溯到80年代,第三次浪潮可以追溯到2010年代。Krizhevksy, Sutskever和Hinton(以下简称KSH)的论文是第三次浪潮的主要原因。在这里,我概述了围绕这项工作的思想史。

由于强调在神经网络的输入和输出之间有多层神经元,目前的这一波被称为“深度学习”;然而,主要的建筑设计特征仍然保持在第二次浪潮,即1980年代。那个时代的核心是Rumelhart、Hinton和Williams发布的用于训练多层感知器的反向传播算法。7这个算法是微积分链式法则的一个结果,以前就有人注意到过,比如Werbos。8然而,与主流研究者青睐的符号表征相比,Rumelhart等人的版本更有影响力,因为它伴随着对认知科学和人工智能知识的分布式表征的兴趣。

第二种知识链来自神经科学,尤其是Hubel和Wiesel对猫和猴子视觉皮层的研究。45他们开发了一个视觉通路的层次模型,在较低的区域(如V1)的神经元对定向边和条形物等特征做出反应,在较高的区域对更具体的刺激做出反应(卡通版本中的“祖母细胞”)。福岛2基于Hubel和Wiesel的层次结构,提出了一种用于模式识别的神经网络结构。他的模型有简单细胞和复杂细胞的交替层,从而纳入了向下采样,和移位不变性,从而纳入了卷积结构。勒存等。6采取了额外的步骤,使用反向传播来训练这个网络的权值,我们今天称之为卷积神经网络就诞生了。

20世纪90年代和21世纪初,人们对神经网络的兴趣减弱。事实上,其中一个内部笑话是,在论文标题中出现“神经网络”一词是对其在NIPS会议上被接受的机会的负面预测!

一些真正的信徒,如Yoshua Bengio、Geoffrey Hinton、Yann LeCun和Juergen Schmidhuber,坚持不懈地致力于开发无监督技术。这些并没有在该领域所关心的基准问题上带来多少成功,所以它们仍然是少数人的兴趣。有一些技术创新,比如最大池化、退出和使用半波整流(又名ReLU)作为非线性激活函数,但在2012年KSH论文发表之前,主流计算机视觉社区并不认为基于神经网络的技术可以产生与我们手工设计的特征和架构相竞争的结果。我就是其中一个怀疑论者,我记得我告诉Geoff Hinton,要想说服计算机视觉社区,需要我们使用的真实世界数据集的结果。Geoff确实把这个建议牢记于心,我喜欢认为这段对话是KSH背后的灵感之一。


我认为下面这篇论文是近五年来机器学习和计算机视觉领域最有影响力的论文。


凯旋集团成功的秘诀是什么?除了技术上的创新(如ReLUs的使用),我们必须把很多功劳归功于“大数据”和“大计算”。这里的大数据指的是具有类别标签的大型数据集的可用性,例如李飞飞小组的ImageNet,它为这些具有数百万参数的大型深度网络提供训练数据。之前的数据集如Caltech-101或PASCAL VOC没有足够的训练数据,MNIST和CIFAR被计算机视觉界视为“玩具数据集”。这种用于基准测试和提取图像统计数据的标记数据集之所以能够实现,是因为人们希望将自己的照片集上传到Flickr等网站上。事实证明,大型计算最有效的方法是通过gpu,这是一种最初由电子游戏行业需求驱动的硬件开发。

现在让我谈谈KSH论文的影响。在撰写本文时,它在谷歌Scholar上有10245次引用,对于一篇还不到五年的论文来说,这是非常了不起的。我出席了ECCV ImageNet研讨会,会上展示了KSH的结果。所有人都对结果印象深刻,但对于其普遍性存在争议。在整个图像分类问题上的成功会延伸到更多的任务,如目标检测吗?这是一个非常脆弱的发现,还是一个其他群体能够复制的强大的发现?随机梯度下降(SGD)只能找到局部极小值,那么我们找到的极小值是好的保证是什么呢?

本着科学的真正精神,我们中的许多人,包括怀疑论者和信徒,回到我们的实验室去探索这些问题。一两年内,证据就很明显了。例如,Girshick等人的R-CNN工作。3.展示了KSH体系结构可以被修改,通过使用计算机视觉思想,如区域建议,使PASCAL VOC上的艺术对象检测成为可能。让SGD发挥作用是一门艺术,但学生、研究人员和企业员工可以掌握它,并在许多不同的环境中产生可重复的结果。我们还没有令人信服的理论证据来证明SGD的稳健性,但经验证据相当令人信服,所以我们把它留给理论家来找到一个解释,而实验主义者继续前进。我们已经意识到,一般来说,更深层次的网络更有效,过度适应的恐惧被夸大了。我们有诸如“批处理规范化”这样的新技术来处理正则化,退出不再那么重要了。实际应用比比皆是。

我认为下面这篇论文是近五年来机器学习和计算机视觉领域最有影响力的论文。正是这篇论文引领了计算机视觉领域拥抱深度学习。

回到顶部

参考文献

1.邓杰,董伟,利宁斯,R,李丽娟。Li, K.和Li, F.-F.ImageNet:一个大型分层图像数据库。在IEEE计算机视觉与模式识别学报,(2009年6月2025)。

2.Neocognitron:一种不受位置变化影响的模式识别机制的自组织神经网络模型。杂志Cybern 34, 4(1980), 193202。

3.Girshick, R., Donahue, J., Darrell, T.和Malik, J.丰富的特征层次结构用于精确的目标检测和语义分割。在IEEE计算机视觉与模式识别学报,(2014)。

4.Hubel, D.H.和Wiesel, T.N.猫视觉皮层的感受野,双眼互动和功能结构。160年j .生理学, 1(1962年1月),106154。

5.Hubel, D.H.和Wiesel, T.N.猴子纹状皮层的接受区和功能结构。195年j .生理学, 1(1968年3月),215243。

6.刘建平,刘建平等。将反向传播应用于手写邮政编码识别。神经计算1(1989), 541551。

7.Rumelhart, d.e., Hinton G.E和Williams R.J.通过反向传播错误学习表征。大自然323年(1986年10月9日),533536。

8.超越回归:行为科学中预测和分析的新工具。博士论文,哈佛大学,1974年。

回到顶部

作者

Jitendra马利克他是加州大学伯克利分校EECS的Arthur J. Chick教授。

回到顶部

脚注

查看所附文件,请访问doi.acm.org/10.1145/3065386


版权归作者所有。

数字图书馆是由计算机协会出版的。版权所有©2017 ACM股份有限公司


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
文章内容:
Baidu
map