acm-header
登录

ACM通信

新闻

加深对深度学习的理解


六边形和箭头的图解

来源:盖蒂图片社

深度学习不应该像它看起来那样工作:根据传统的统计和机器学习,任何有太多可调参数的分析都会过拟合有噪声的训练数据,然后在面对新的测试数据时失败。现代神经网络显然违背了这一原则,它经常使用更多的参数而不是数据点,但它们仍然可以很好地推广到新数据。

多年来,人们已经注意到一般化的理论基础不可靠。一种建议是神经网络隐含地执行某种正则化——一种惩罚使用额外参数的统计工具。然而,以色列特拉维夫大学(Tel Aviv University)电气工程系高级讲师罗伊·利夫尼(Roi Livni)说,正式描述这种对更顺畅解决方案的“隐性偏见”的努力失败了。“它可能就像大海捞针,如果我们进一步寻找,最终我们会找到它。但也可能是针不在那里。”

回到顶部

大量的参数

最近的研究已经澄清,当学习系统被高度参数化时,它们会以完全不同的方式运行,因此更多的参数会让它们一般化更好。此外,不仅神经网络具有这种特性,而且更容易理解的方法也具有这种特性,这使得更系统的分析成为可能。

加州大学圣地亚哥分校(University of California, San Diego)哈利西奥卢数据科学研究所(Haliciolu Data Science Institute)教授米哈伊尔·贝尔金(Mikhail Belkin)说,“人们多少知道存在两个政权。”然而,在他和同事于2019年发表的研究成果之前,“我认为这种彻底的分离肯定没有被理解”。“你在实践中所做的”,比如强迫正规化或提前停止训练,“会把它们弄混。”

uf1.jpg
数字像上面这样的核机器用于将非线性可分函数计算为高维线性可分函数。

Belkin和他的合著者系统地增加了几个模型的复杂性,并证实了一般化的经典退化。他们的分析显示,当模型参数的数量足够高,可以精确地拟合每个训练点时,预测误差出现了一个尖锐的峰值。然而,超过这个阈值后,泛化再次改善,因此整体曲线显示出他们所谓的“双重下降”。

斯坦福大学工程学院Robert和Barbara Kleist教授、电气工程、统计和数学系教授Andrea Montanari解释说,一个高度过度参数化的模型——超越峰值——在参数空间中有一个巨大的、复杂的解,可以同样很好地拟合训练数据——事实上是完美的。训练通常从一组随机参数开始,然后反复调整它们以更好地匹配训练数据,将在接近初始化点的流形中确定解决方案。“不知何故,它们具有一种特殊的简单性,使它们能够很好地推广,”他说。“这取决于初始化。”

然而,多伦多谷歌Brain的Gintare Karolina Dziugaite警告说,泛化的定量指标是具有挑战性的,我们应该期望从“解释”中得到什么是有限的。一个明显的衡量标准是训练过的模型在面对大量数据时的表现。“它会相当精确,但从解释的角度来看,它基本上是沉默的,”她说。相比之下,一般理论并不依赖于数据的细节,但“在这一点上,这类理论在实践中无法解释深度学习,这一点得到了充分的认可。”Dziugaite说。"任何令人满意的归纳理论都应该介于这两种制度之间"

Dziugaite还指出,记忆训练集,就像过拟合一样,在某些情况下实际上是有用的,比如当数据集包含小的亚种群时。一个平均而言似乎能很好地概括的工具可能会漏掉一些代表性不足的例子,比如面部识别数据中的深色皮肤的人。

哈佛大学计算机科学教授Boaz Barak认为泛化只是神经网络能力的一个方面。他说:“如果你想以一种数学定义良好的方式来讨论泛化,你需要考虑这样一种情况:在总体上有一些分布,你从这个分布中获得样本。”对于现实世界的数据集,“事情不是这样的”。

一般来说,良好的概括也不能解决“脆弱”问题,在这个问题中,神经网络有时会在响应新的输入时产生无法解释的、严重的错误。然而,蒙塔纳里说:“我们还远没有找到一种原则性地解决这个问题的方法。”

回到顶部

内核的机器

贝尔金的“最重要的发现是[过度参数化的体制]实际上是普遍的,”蒙塔纳里说。“它不局限于神经网络。”因此,“人们开始在更简单的模型中研究这一现象。”

例如,Belkin一直支持受人尊敬的内核机器,因为它们具有解释性和实用性。当用作二进制分类器时,内核机器在一个非常高维的特征空间中搜索分离两组数据点的简单曲面,这些数据点在投影到更少的维数时是相互交织的。为了实现这种分离,他们利用了一种数学上的“核技巧”,即计算高维空间中一对对点之间的距离,而不需要计算它们的实际坐标。

内核机器包括支持向量机,在最近深度学习兴起之前,支持向量机被广泛用于机器学习。“从某种意义上说,这是一个更简单的模型,”贝尔金说。“如果你甚至不能理解它们发生了什么,那么你就无法理解神经网络。”

此外,Belkin已经开始相信内核机器可能已经包含了深度学习的最重要的特性。“我不想说关于神经网络的所有事情都可以用核来解释,”他说,“但我认为也许神经网络有趣的事情现在可以用核来表示。”

在某些极限情况下,这种联系可以用数学精确地表示出来。一个重要的限制是当神经网络有无限“宽度”的层时(与“深度”相比,深度学习的名称来源于层数)。众所周知,这种广泛的网络在随机初始化时,可以描述为一个高斯过程,这是一种核。

这种联系在培训期间持续存在,瑞士École Polytechnique Fédérale de Lausanne的研究生Arthur Jacot和他的同事在2018年的NeurIPS报告中被高度引用。“我们通过局部线性模型来近似神经网络的非线性模型,”他说。这个神经切线核(Neural tan Kernel,简称NTK)精确地决定了解决方案在训练过程中如何演变。

对于无限宽的网络,作者表明NTK不依赖于训练数据,并且在训练过程中不会改变。Jacot说,他们仍在研究神经网络处于“NTK状态”的其他条件,包括初始参数有很大的差异。

Belkin说:“在NTK的这篇论文之后,我更加致力于内核的研究,因为它们本质上表明广泛的神经网络只是核,”这使得泛化更容易建模。

回到顶部

学习功能

但是,内核并不是自动地做所有的事情。“内核机器和神经网络之间的主要区别在于,神经网络从数据中学习特征,”巴拉克说。“从数据中学习是深度学习成功的一个重要特征,所以从这个意义上说,如果你需要解释它,你需要超越内核。”优化特征识别甚至可能促使神经网络设计者避免NTK制度,他建议,“因为否则它们可能退化为内核。”

蒙塔纳里说:“我们很容易找到这样的例子:神经网络工作得很好,而没有核方法工作得很好。”他怀疑神经网络的实际成功“可能是由于”线性部分(体现在核中)与特征学习(不体现在核中)的混合。

对于Belkin来说,他仍然抱有希望——虽然不确定——内核将能够完成所有的工作,包括特征识别。他说,有数学结果表明,神经网络可以计算某些核不能计算的东西,但“这实际上并没有告诉我,真正的神经网络在实践中可以计算这些东西。”

Jacot承认:“神经网络并不总是接近内核方法。”尽管如此,他强调,即使在NTK制度之外,NTK仍然可以被定义和描述网络演化,这使得分析网络正在做什么更容易。“使用NTK,你可以真正地比较不同的架构”,看看它们是否对特定的功能敏感,”他说。“这已经是非常重要的信息了。”

例如,卷积神经网络在图像识别方面已经被证明是强大的,部分原因是它们的内部连接使它们对物体的位移不敏感。Jacot说:“尽管这些特征不是后天习得的,但它们仍然相当复杂,这是网络结构的结果。”“当它们被内置到内核方法中时,仅仅拥有这些特性就能极大地提高性能。”

然而,对于其他任务,神经网络识别的特征对设计师来说可能很难识别。巴拉克建议,对于这样的任务,一种方法“将是某种程度上的神经网络和核的合并,在这种意义上,有适合数据的核,而神经网络恰好是一种成功学习该核的良好算法。”此外,“我们有一些依赖于数据的通用特征的证据,而不是你用来学习它的任何特定算法。如果我们对这一点有更好的理解,那么可能就会从这方面得出一般化的结论。”

*进一步的阅读

贝尔金,硕士,徐,D, Ma, S和曼达尔,S。
协调现代机器学习实践和经典的偏差-方差权衡,法学硕士,科学11615849 (2019),https://bit.ly/3EgkBYb

贝尔金,M。
无所畏惧的契合:通过插值棱镜的深度学习的卓越数学现象,Acta Numerica 30203 (2021),https://bit.ly/3GUJvhq

雅克(A. Jacot)、加布里埃尔(F. Gabriel)和洪勒(C. Hongler)。
神经网络中神经切线核的收敛与泛化,32nd2018年神经信息处理系统学术会议,https://bit.ly/32bQmo0

回到顶部

作者

梦露不是一位科技作家,现居美国马萨诸塞州波士顿。


©2022 0001 - 0782/22/6 ACM

如果您不是为了盈利或商业利益而制作或分发本作品的部分或全部,并在第一页注明本通知和完整引用,则允许您免费制作本作品的部分或全部数字或纸质副本,供个人或课堂使用。本作品的组成部分必须由ACM以外的其他人享有版权。信用文摘是允许的。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org或传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM股份有限公司


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
文章内容:
Baidu
map