ACM

ACM通信

首页 / 杂志存档 / 2011年10月(第54卷第10期) / 技术视角:学习功能的更好方法 /全文

研究突出了

技术视角:学习功能的更好方法

杰弗里·e·辛顿著
ACM通信，2011年10月，第54卷第10期，第94页
10.1145/2001269.2001294
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享在黑客新闻上分享在推特上分享在Facebook上分享

典型的机器学习程序使用特征的加权组合来区分类或预测实值结果。机器学习的艺术在于构建特征，而一种全新的创建特征的方法构成了一大进步。

在20世纪80年代，新的方法是反向传播，它利用链式法则通过多层前馈神经网络反向传播误差导数，并根据反向传播误差的梯度调整层与层之间的权重。这对于识别简单的形状很有效，比如手写数字，特别是在卷积神经网络中，它使用了在整个图像中复制的局部特征检测器。⁵然而，对于许多任务来说，具有多层非线性特征的深度神经网络优化极其困难，大型神经网络需要大量的标记训练用例才能很好地泛化测试数据。

在20世纪90年代，支持向量机(svm)⁸引入了一种非常不同的创建特征的方法:用户定义一个内核函数，它计算两个输入向量之间的相似性，然后使用一个明智地选择的训练示例子集来创建“里程碑”特征，以度量测试用例与每个训练用例的相似程度。支持向量机有一种聪明的方法来选择使用哪些训练用例作为地标，并决定如何对它们进行加权。它们在许多机器学习任务中工作得非常好，即使所选择的特征是非自适应的。

支持向量机的成功抑制了早期对神经网络的热情。然而，最近有研究表明，通过使用不需要标记数据的无监督学习，可以贪婪地学习多层特征检测器，一次一层。每一层的特征被设计用来模拟上一层特征激活模式的统计结构。在以这种方式学习了几层特征而不关注最终目标之后，许多高级特征将与任何特定任务无关，但其他特征将高度相关，因为高阶相关性是数据真正潜在原因的签名，而标签与这些原因比原始输入更直接相关。使用反向传播的后续微调阶段产生的神经网络比仅使用反向传播训练的神经网络工作得更好，在诸如物体或语音识别等重要任务上也优于支持向量机。^1，2，4神经网络优于支持向量机，因为标签中的有限信息量没有被用来从零开始创建多个特征;它只是用来通过稍微修改特性来调整类的边界。

Lee等人的以下论文是第一个令人印象深刻的演示，贪婪的逐层特征创建可以应用于大图像。为了做到这一点，他们必须使用复制的局部特征检测器，并且他们必须解决卷积神经网络概率建模中的一个棘手的技术问题。这些网络通过简单地报告它们的最大值来总结相同特征检测器附近副本的输出。要使无监督学习正常工作，必须给这个操作一个合理的概率解释。作者通过使用最大函数的软概率版本解决了这个问题，他们表明，这允许他们学习一个令人印象深刻的特征层次结构，其中第一层表示面向边缘过滤器，第二层表示对象部分，第三层表示更大的部分或整个对象。他们还表明，他们的模型可以结合自底向上和自顶向下的推理，使用更多的全局上下文在局部特征之间进行适当的选择。

作者使用的学习算法旨在产生一个复合生成模型，称为“深度信念网”，^3.但它们执行自上而下的推理，就好像它是一个不同的生成模型，称为“深度玻尔兹曼机”。他们在图像补全方面取得了相当好的结果，如果他们使用Salakhutdinov最近开发的算法将生成模型微调为深度玻尔兹曼机，可能会获得更好的结果。⁷

机器学习在有效地创建像SIFT这样复杂的特征之前还有一段路要走⁶用于许多领先的计算机视觉系统。然而，这篇论文应该让那些仍然相信手工设计功能有长远前途的计算机视觉研究人员感到担忧。无监督学习的进一步改进似乎也有可能:生物学告诉我们，在整个图像上应用高分辨率过滤器并不是使用神经网络的最佳方式，即使它有数十亿个神经元。

回到顶部

参考文献

1.Bengio, Y.， Lamblin, P.， Popovici, D.和Larochelle, H.深度网络的贪婪分层训练。神经信息处理系统的研究进展．schelkopf, J. Platt和T. Hoffman, ed。麻省理工学院出版社，剑桥，马萨诸塞州，2007,19。

2.Dahl, G, Mohamed, A.和Hinton, G.E.使用深度信念网络的声学建模。IEEE反式。关于音频、语音和语言处理8(2011)。

3.Hinton, g.e.， Osindero, S.和Y.T.，深度信念网的快速学习算法。神经计算18(2006)。

4.Hinton, G.E.和Salakhutdinov, R.R.用神经网络降低数据的维数。科学313(2006), 504507。

5.LeCun, Y.， Bottou, L.， Bengio, Y.和Haffner, P.基于梯度的学习在文档识别中的应用。在IEEE 86论文集， 11(1998)， 22782324。

6.从局部尺度不变特征进行对象识别。在计算机视觉国际会议,1999年

7.学习深度生成模型。博士论文，多伦多大学，2009。

8.Vapnik, V.N.统计学习理论的本质．施普林格，纽约，纽约，2000年。

回到顶部

作者

杰弗里·e·辛顿（hinton@cs.toronto.edu)是加拿大多伦多大学计算机科学教授。

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝，但不得为盈利或商业利益而复制或分发，且副本在首页上附有本通知和完整的引用。除ACM外，本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表，都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

没有发现记录

技术视角:学习功能的更好方法

参考文献

作者

文章内容:

人工智能能帮助赌场减少问题赌博吗?

隐私危机是经历过的，还是避免了的?

从机器意志?