以下是Zhang等人的文章,因为强调了深度学习在人工智能领域的广泛成功带来了一个基本的新的理论挑战而闻名,具体来说:为什么今天的深度网络没有对训练数据进行过拟合?这个问题激发了深度学习理论的活力。
让我们在……的背景下理解这个问题监督式学习,机器的目标是学习为输入提供标签(例如,学习用“1”标记猫的图片,用“0”标记狗的图片)。深度学习解决了这个问题,方法是在人类正确标记的适当大的图像训练集上训练一个网络。网络的参数是随机初始化的,然后通过可以想象到的最简单的算法在许多阶段进行调整:对期望输出和实际输出之间的当前差异进行梯度下降。
在训练结束时,通常会发现网络在训练图像上分配的标签大部分或完全正确。这是否意味着网络可以被用来正确地为我们在互联网上找到的其他图片贴上标签?不一定。可以想象,网络学会了正确标记训练图片,而不是其他图片。换句话说,这是可能的overfitted训练数据。通常使用坚持训练期间未使用的一组训练数据。这种方法的基础假设是,训练数据由来自固定分布的独立样本组成,我们希望得到一个网络,为整个分布的大多数图像提供正确的标签。一个简单的概率集中界限表明,在抵制集上的性能可以预测来自相同分布的不可见图像上的性能——直到一些定义良好的误差条。
公认的智慧认为,如果网是太富有表现力,即有足够的层数和每层的参数,因此它能够表示从输入到0/1标签的任意复杂映射。为了避免过度拟合,应该使用不能“实现比必要更复杂的功能”的模型。这个哲学原理被称为奥卡姆剃刀这与为什么我们更喜欢简单的科学理论而不是复杂的理论有关。
几十年的机器学习和统计理论工作已经产生了模型复杂性的度量,从旧的VC维和Rademacher复杂度到更现代的基于规范的度量。这个理论认为,在训练过程中,一个人必须增加一个规范训练目标的术语,惩罚具有高度复杂性的模型。
现代的深网已经证明混淆了这种直观的正则化框架。如本文所示,在仅10000个训练示例上,不使用正则化器就可以训练具有5000万个参数的网络。令人惊讶的是,没有发生明显的过拟合。
文中详细描述的大量实验加深了这种缺乏过拟合的奥秘。实验包括在标准图像数据集的随机/无意义版本上训练网络——最良性的是标签的随机化,更极端的是使用随机像素集合作为图像和随机标签。目前的深度网络——即使经过标准的训练和正则化器——也能够很好地拟合这些无意义的数据集,这表明这些网络能够表达非常复杂的函数。特别地,在带有随机标签的图像上拟合一个网的实验表明,对于深网结构,传统的Rademacher复杂度度量是很高的。
后续工作探索了作者的建议,即训练算法(梯度下降的一种变体)在如何避免过拟合方面发挥了强大的作用。定义了许多新的度量方法来度量训练过的网的“有效参数数”。据报道,其中一些测量与良好的泛化相关。然而,最近一项广泛的研究2这表明这种相关性非常弱,我们仍然不能确定为什么不会发生过拟合。
另一个有趣的方向是对极端过度参数化的理论理解,这导致了大量的论文。由于过度参数化似乎并不会损害深度网络,人们很自然地想知道是否可以将其发挥到极致。最近的工作分析了无限极限:取一个有限的网络,并允许其宽度(=节点数为全连接层,通道数为卷积层)达到无穷大。这是一个奇妙的世界神经切内核或洛泰克。1也许这些新想法中的一些会出现在通信在未来。向张等人的论文致敬,他们的论文导致了所有这些有趣的后续工作!
数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.
没有发现记录