ACM

一个CM通信

首页 / 杂志存档 / 2021年3月(第64卷第3期) / 理解深度学习(仍然)需要反思… /全文

研究突出了

理解深度学习(仍然)需要重新思考泛化

作者:张赤源、萨米·本吉奥、莫里茨·哈特、本杰明·雷希特、奥里奥尔·维尼亚尔斯
ACM通信，2021年3月，第64卷第3期，第107-115页
10.1145 / 3446776
评论

认为: 打印手机应用程序一个CM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享在黑客新闻上分享在推特上分享在Facebook上分享

尽管深度人工神经网络规模庞大，但成功的深度人工神经网络在训练和测试性能之间的差距非常小。传统智慧将小的泛化误差归因于模型族的属性或训练中使用的正则化技术。

通过大量的系统实验，我们展示了这些传统方法如何不能解释为什么大型神经网络在实践中推广得很好。具体地说，我们的实验证明，用随机梯度方法训练的最先进的用于图像分类的卷积网络很容易适合训练数据的随机标记。这种现象在定性上不受显式正则化的影响，即使我们用完全非结构化的随机噪声替换真实图像也会发生。我们用一个理论结构证实了这些实验发现，表明只要参数的数量超过数据点的数量，就像在实践中通常做的那样，简单深度二神经网络已经具有完美的有限样本表达性。

我们通过与传统模型的比较来解释我们的实验结果。

我们补充了这个再版的最后一个新部分，总结了该领域的最新进展，从这篇论文的原始版本。

回到顶部

1.简介

几个世纪以来，科学家、政策制定者、精算师和推销员都在利用一个经验事实，即未知的结果，无论是未来的还是未观察到的，通常都可以追溯到过去的观察中发现的规律。我们称之为泛化:找到适用于我们尚未遇到的实例的与可用数据一致的规则。

监督机器学习在如何形式化泛化思想方面建立在统计传统的基础上。我们假设观察结果来自固定的数据生成过程，例如从固定分布中提取的样本。在第一个优化步骤中，称为培训，我们将模型与一组数据拟合。第二步，叫做测试，我们通过它对来自相同进程的新生成数据的执行情况来判断模型。

泛化的概念是性能测试时间似乎平淡无奇。毕竟，它只需要模型在相同数据生成过程中遇到的培训。然而，什么理论支持模型的泛化能力这一看似简单的问题，已经在机器学习研究领域占据了几十年。

有各种各样的理论被提出来解释泛化。

一致收敛、边际理论和算法稳定性只是推理泛化的几个重要概念工具。许多理论的中心是不同的概念模型的复杂性。对应的泛化边界量化了需要多少数据作为一个特定复杂性度量的函数。尽管有许多重要的理论工作，这些理论的规范性和描述性价值仍然存在争议。

这项工作后退了一步。我们不提供任何新的概化理论。相反，我们提供了一些简单的实验来询问不同的所谓的泛化理论的经验重要性。有了这些手边的实验，我们广泛地调查了哪些实践能促进泛化，哪些不能度量泛化?

1.1.随机化试验

在我们的主要实验中，我们创建了一个训练数据的副本，其中我们用从有效标签集中选择的随机标签独立地替换每个标签。一张标着“狗”的狗画可能会变成一张标着“飞机”的狗画。随机化打破了实例(例如，图像)和标签之间的任何关系。然后在自然数据和具有相同设置和模型选择的随机数据上运行学习算法。根据设计，在随机数据上不可能泛化。毕竟，我们将模型与随机标签相匹配!

对于任何所谓的泛化度量，我们现在可以比较它在自然数据和随机数据上的表现。如果结果在两种情况下是相同的，那么它就不可能是泛化的一个很好的度量标准，因为它甚至不能区分从自然数据(泛化是可能的)和在随机数据(不可能泛化的)上学习。我们的主要观察是:

深度神经网络很容易适应随机标签。

更准确地说，当对真实数据的完全随机标记进行训练时，神经网络的训练误差为0。当然，测试误差并不比随机概率好，因为训练标签和测试标签之间没有相关性。换句话说，仅通过随机标签，我们就可以在不改变模型、模型大小、超参数或优化器的情况下，迫使模型的泛化误差大幅上升。我们在CIFAR10和ImageNet分类基准上训练过的几个不同的标准体系结构上建立了这一事实。虽然表述起来很简单，但从统计学习的角度来看，这一观察结果具有深刻的含义:

神经网络的有效容量足以记忆整个数据集。
即使是随机标签的优化也很容易。事实上，与真实标签上的训练相比，训练时间只增加了一个很小的常数因子。
随机化标签仅仅是一个数据转换，而不改变学习问题的所有其他属性。

特别是，我们发现许多更流行的泛化解释未能捕捉到最先进的深度学习模型中所发生的事情。

扩展第一组实验，我们也用完全随机的像素(如高斯噪声)替换真实图像，并观察到卷积神经网络继续以零训练误差拟合数据。这表明，尽管卷积神经网络的结构不同，但它可以适应随机噪声。我们进一步改变随机化的数量，在无噪声和完全噪声的情况下平滑地插值。这就导致了一系列的中间学习问题，在这些问题中标签中仍然存在某种程度的信号。我们观察到，随着噪声水平的增加，泛化误差会稳步恶化。这表明神经网络能够捕获数据中剩余的信号，同时使用蛮力拟合噪声部分。

我们将在下面进一步详细讨论这些观察结果如何排除一些标准泛化边界，作为对最先进神经网络泛化性能的可能解释。

1.2.正规化的作用

正则化可以被认为是模型复杂性概念的操作对应物。当模型的复杂性非常高时，正则化引入算法调整，旨在奖励复杂性较低的模型。正则化是一种流行的技术，可以使优化问题“很好地提出”:当有无限个解与数据一致时，正则化打破束缚，有利于具有最低复杂度的解。

我们的第二组实验询问正则化在训练过参数化神经网络中的作用。我们的实验表明，深度学习中的大多数正则化技术都不是泛化所必需的:如果我们关闭正则化参数，测试时性能仍然很好。因此，仅显式正则化并不足以解释深度学习模型是如何泛化的。总结一下我们的发现:

显式正则化可以提高泛化性能，但对于控制泛化误差来说，显式正则化既不是必要的，本身也不是充分的。

虽然像“dropout”和“weight-decay”这样的显式正则化器可能不是泛化所必需的，但事实确实如此，并非所有适合训练数据的模型都能很好地泛化。事实上，在神经网络中，我们几乎总是选择我们的模型作为运行的随机梯度下降的输出。利用线性模型，我们分析了SGD如何作为一个隐式正则器。对于线性模型，SGD总是收敛到一个小范数解。因此，算法本身隐式地正则化了解。事实上，我们在小数据集上表明，即使高斯核方法也可以在没有正则化的情况下很好地泛化。尽管这并不能解释为什么某些体系结构比其他体系结构更易于泛化，但它确实表明需要进行更多的研究，以准确地理解使用SGD训练的模型继承了什么属性。

1.3.有限样本表达能力

我们用一个理论结构来补充我们的经验观察，表明一般的大型神经网络可以表达训练数据的任何标记。更正式地说，我们展示了一个非常简单的两层ReLU网络p= 2n+d可以表示任何大小的样本的任何标记的参数n在d维度。这是利夫尼等人先前的作品。²²用更多的参数也得到了类似的结果，即，O（dn)．虽然我们的深度-2网络不可避免地有很大的宽度，但我们也可以提出一个深度k网络中每层只有O（n / k)参数。

之前的表达性结果关注的是神经网络在整个领域可以表示什么函数，而我们关注的是神经网络对有限样本的表达性。与现有的深度分离相比^13,15,40,11在函数空间中，我们的结果表明，即使是线性大小的深度-2网络也可以表示训练数据的任何标记。

1.4.之前相关工作

下面我们将讨论一些相关的前期工作。在第6.1节中，我们将讨论我们的工作首次发表之后的最新工作。

巴特莱特⁴证明了具有s型激活的多层感知器的脂肪粉碎维数的界ℓ₁-各节点权值的范数。这一重要结果为神经网络提供了一个与网络规模无关的泛化界。然而，对于RELU网络，ℓ₁-norm不再提供信息。这就引出了一个问题:是否有一种不同形式的容量控制来限制大型神经网络的泛化误差。这个问题是Neyshabur等人发人深省的作品中提出的，^30.他通过实验论证了网络规模不是神经网络容量控制的主要形式。一个与矩阵分解的类比说明了隐式正则化的重要性。

哈特等。¹⁸根据梯度下降的步数，给出随机梯度下降训练模型的泛化误差的上界。他们的分析通过概念均匀稳定。⁸正如我们在这项工作中指出的，学习算法的一致稳定性与训练数据的标记无关。因此，该概念不足以区分在真实标签上训练的模型(小泛化误差)和在随机标签上训练的模型(大泛化误差)。这也突出了为什么哈特等人的分析。¹⁸对于非凸优化是相当悲观的，只允许非常少的数据传递。我们的结果表明，即使是经过经验训练的神经网络，在数据的多次传递中也不是一致稳定的。

从多层感知器的普遍近似定理开始，已经有很多关于神经网络的表征能力的工作。^{12,25,13,24,15,40,11}所有这些结果都在人口描述某一类神经网络可以在整个域上表示哪些数学函数的层次。相反，我们研究了有限样本大小下神经网络的表示能力n。这就引出了一个非常简单的证明O（n)大小的双层感知器具有普遍的有限样本表达能力。

回到顶部

2.神经网络的有效容量

模型族的规模通常是巨大的，因为它计算了某个集合中所有可能的函数，包括那些不太可能被学习算法发现的函数。通过有效的能力，我们非正式地指通过学习过程可以有效实现的模型子集的大小。这个子集的容量可能要小得多，因为它只包含由某些特定优化算法产生的“良好行为”函数，计算预算有限，有时还包含显式或隐式正则化。我们的目标是了解前馈神经网络的有效模型能力。为了实现这一目标，我们选择了一种受非参数随机化检验启发的方法。具体来说，我们采用一个候选体系结构，并在真实数据和数据副本(真实标签被随机标签替换)上训练它。在第二种情况下，实例和类标签之间不再有任何关系。因此，学习是不可能的。直觉表明，这种不可能应该在训练中清楚地表现出来，例如，通过训练不收敛或大幅放缓。令我们惊讶的是，针对多个标准体系结构的训练过程的一些属性在很大程度上不受这种标签转换的影响。这带来了一个概念上的挑战。 Whatever justification we had for expecting a small generalization error to begin with must no longer apply to the case of random labels.

为了进一步了解这一现象，我们用不同水平的随机化进行实验，探索无标签噪声和完全损坏标签之间的连续统。我们还尝试了输入的不同随机化(而不是标签)，得出了相同的总体结论。

实验在CIFAR10数据集和ImageNet ILSVRC 2012数据集两个图像分类数据集上进行。我们测试《盗梦空间》V3ImageNet上的架构，CIFAR10上的Inception、Alexnet和mlp的小版本。请见张等人的附录A。⁴⁴有关实验设置的更多细节。

2.1.拟合随机标签和像素

我们对标签和输入图像进行了如下修改:

真正的标签:未经修改的原始数据集。
部分损坏标签:独立的概率p，每个图像的标签被损坏为一个统一的随机类。
随机的标签:所有的标签都被替换为随机的。
打乱像素:选择像素的随机排列，然后相同的对训练集和测试集的所有图像进行排列处理。
随机像素:不同的随机排列分别应用于每个图像。
高斯:使用高斯分布(与原始图像数据集的均值和方差相匹配)为每张图像生成随机像素。

令人惊讶的是，即使随机标签完全破坏了图像和标签之间的关系，但在超参数设置不变的情况下，随机梯度下降可以完美地优化权重以适合随机标签。我们进一步通过打乱图像像素来打破图像的结构，甚至从高斯分布中完全重新采样随机像素。但我们测试的网络仍然能够适应。

图1一个展示了不同设置下CIFAR10数据集上Inception模型的学习曲线。我们预计目标函数在随机标签上开始减少需要更长的时间，因为最初每个训练样本的标签分配是不相关的。因此，大的预测误差被反向传播，使得参数更新具有较大的梯度。然而，由于随机标签是固定的和跨时代一致的，网络在经过多次训练集后开始拟合。我们发现以下观察结果对拟合随机标签非常有趣:(a)我们不需要改变学习速率计划;(b)拟合开始后，收敛速度快;和(c)它收敛于(过)完美拟合训练集。还要注意，“随机像素”和“高斯”比“随机标签”开始收敛得更快。这可能是因为使用随机像素时，输入之间的距离比原本属于同一类别的自然图像更大，因此更容易为任意标签分配建立一个网络。

图1所示。在CIFAR10上拟合随机标签和随机像素。(a)各种实验设置的训练损失随训练步骤的增加而衰减。(b)不同标签损坏率下的相对收敛时间。(c)不同标签腐蚀下的测试误差(也是泛化误差，因为训练误差为0)。

在CIFAR10数据集上，Alexnet和mlp都收敛于训练集上的零损耗。中的阴影行表1展示准确的数字和实验设置。我们还测试了ImageNet数据集上的随机标签。如Zhang et al.附录中表2的后三行所示，⁴⁴虽然它没有达到100%的最佳准确率，但95.20%的准确率对于来自1000个类别的120万个随机标签来说仍然是非常令人惊讶的。注意，在从真实标签切换到随机标签时，我们没有进行任何超参数调优。很可能通过对超参数进行一些修改，可以在随机标签上实现完美的精度。即使打开显式正则化器，该网络也设法达到约90%的top-1精度。

表1。CIFAR10数据集上各种模型的训练和测试准确度(%)。

部分损坏的标签。我们进一步检查了CIFAR10数据集上从0(无损坏)到1(完全随机标签)的不同标签损坏水平下神经网络训练的行为。该网络对所有情况都能完美地拟合损坏的训练集。图1 b随着标签噪声水平的增加，收敛时间变慢。图1 c描述了收敛后的测试误差。由于训练误差总是零，测试误差与泛化误差相同。当噪声水平接近1时，泛化误差收敛到90% - CIFAR10上随机猜测的性能。

2.2.影响

根据我们的随机化实验，我们讨论了我们的发现如何对几种传统的泛化推理方法提出挑战。

Rademacher复杂度和vc维。Rademacher复杂度是假设类常用且灵活的复杂度度量。函数类的经验Rademacher复杂度F在数据集上{z₁、……z_n}定义为

在σ₁,…,σ_n∈{±1}为I.I.D.均匀随机变量。通常我们的目标是限制Rademacher的复杂性损失函数类l= {ℓ（z= (x,y)) =ℓ（h（x)，y):h∈H},,z_我= (x_我,y_我)是输入输出对。为l李普希茨损失函数ℓ实值假设类收缩引理。Rademacher复杂度度量函数类适合随机±1个二进制标签分配的能力，这与我们的随机化测试非常相似。由于我们在随机化测试上的经验结果表明，许多神经网络完美地拟合了带有随机标签的训练集，因此我们预期如此近似达到相应损失类别的最大值l．例如，对于指示器损失，．这是Rademacher复杂度上的一个微不足道的上界，在现实环境中不会产生有用的泛化边界。类似的推理也适用于vc维及其连续模拟脂肪粉碎维，除非我们进一步限制网络。虽然巴特莱特⁴证明了脂肪分解维度上的一个界限ℓ₁网络权值上的范数边界，这个边界不适用于我们这里考虑的ReLU网络。Neyshabur等人将这一结果推广到其他规范，³¹但即便如此，似乎也无法解释我们观察到的泛化行为。

均匀稳定。抛开假设类的复杂性度量，我们可以考虑用于训练的算法的属性。这通常是用一些稳定性的概念来完成的，例如均匀稳定。算法的一致稳定性一个度量算法对替换单个示例的敏感度。然而，这仅仅是算法的一个属性，它没有考虑到数据的细节或标签的分布。可以定义较弱的稳定性概念。^27,32,36最弱的稳定性测量直接相当于边界泛化误差，并将数据考虑在内。然而，有效地利用这个较弱的稳定性概念一直很困难。

回到顶部

3.正规化的作用

我们的大多数随机化测试都是在关闭显式正则化的情况下执行的。当参数多于数据点时，正则化器是在理论和实践中缓解过拟合的标准工具。⁴²其基本思想是，尽管原始假设太大而不能很好地概括，但正则化器有助于将学习限制在具有可管理复杂性的假设空间的子集中。通过添加一个显式的正则化器，比如通过惩罚最优解的范数，可能解的有效Rademacher复杂度显著降低。

正如我们将看到的，在深度学习中，显式正则化似乎扮演着不同的角色。如Zhang等附录中表2的下行。⁴⁴显示，即使有dropout和权值衰减，InceptionV3仍然能够非常好地拟合随机训练集，即使不是完美的。在CIFAR10上，尽管没有明确显示，但Inception和mlp仍然完美地适合打开权值衰减的随机训练集。然而，打开权值衰减的AlexNet不能收敛于随机标签。为了研究正则化在深度学习中的作用，我们明确地比较了有正则化和没有正则化的深度网络学习行为。

我们没有对为深度学习引入的各种正则化技术进行全面的调查，而是简单地采用几种常用的网络架构，并比较关闭所配备的正则化器时的行为。

涵盖了以下正则化函数:

数据增加:通过特定于领域的转换来扩充训练集。对于图像数据，常用的转换包括随机裁剪、亮度、饱和度、色调和对比度的随机扰动。
体重衰减:相当于一个ℓ₂权函数的正则化子;也相当于欧几里得球的权值的硬约束，其半径由权值衰减量决定。
辍学³⁹：蒙版的每一层输出的每个元素与给定的退出概率随机。只有用于ImageNet的Inception V3在我们的实验中使用dropout。

表1显示了CIFAR10上Inception、Alexnet和mlp的结果，切换了数据增强和权值衰减的使用。这两种正则化技术都有助于提高泛化性能，但即使关闭了所有的正则化器，所有的模型仍然可以很好地泛化。

Zhang等人附录中的表2。⁴⁴显示了在ImageNet数据集上的一个类似的实验。当我们关闭所有正则化器时，可以观察到18%的top-1精度下降。具体而言，未经正则化的top-1准确率为59.80%，而随机猜测在ImageNet上的top-1准确率仅为0.1%。更引人注目的是，在打开数据扩充但关闭其他显式正则化器的情况下，Inception能够达到72.95%的顶级精度。实际上，使用已知的对称性增强数据的能力似乎比仅仅调整权值衰减或防止低训练错误要强大得多。

Inception在没有正则化的情况下达到了80.38%的top-5准确性，而ILSVRC 2012的报告获胜者数量达到了83.6%。因此，尽管正则化很重要，但通过简单地更改模型架构可以获得更大的收益。很难说正则化器是深度网泛化能力的一个基本阶段变化。

3.1.隐式合法化

早期停止被证明隐式正则化在一些凸学习问题上。^21,43在Zhang et al.附录中的表2中，⁴⁴我们在括号中显示了训练过程中的最佳测试精度。它证实了早期停止可以潜在的^一个提高泛化性能。图2一个展示了在ImageNet上的训练和测试精度。阴影区域表示累积的最佳测试精度，作为早期停止的潜在性能增益的参考。然而，在CIFAR10数据集上，我们没有观察到任何提前停止的潜在好处。

图2。隐式正则化器对泛化性能的影响。Aug是数据增强;Wd为重量衰减;BN是批归一化。阴影区域为累积最佳测试精度，作为早期停止的潜在性能增益的指标。(a)在没有其他正则化器的情况下，早期停止可能改善泛化。(b)早期停止对CIFAR10不一定有帮助，但批归一化稳定了训练过程，提高了泛化。

批处理规范化是在每个小批处理中规范化层响应的操作符。它已被广泛应用于许多现代神经网络体系结构中，如初始网络和剩余网络。尽管没有明确地为正则化设计，但批处理归一化通常可以提高泛化性能。Inception体系结构使用了大量的批处理规范化层。为了测试批处理规范化的影响，我们创建了一个“带/不带BatchNorm的初始化”体系结构，它与初始化完全相同，只是去掉了所有的批处理规范化层。图2 b比较CIFAR10上两个盗梦空间变体的学习曲线，所有显式正则化器都关闭。归一化算子有助于稳定学习动态，但对泛化性能的影响仅为3 ~ 4%。的“Inception w/o BatchNorm”部分也列出了确切的精度表1．

总之，我们对显式和隐式正则化器的观察一致表明，在适当调优的情况下，正则化器可以帮助提高泛化性能。然而，正则化器不太可能是泛化的根本原因，因为在删除了所有正则化器之后，网络仍然可以很好地执行。

回到顶部

4.有限样本表达能力

在描述神经网络的表达特性方面已经做了大量的工作，例如Cybenko^12,Mhaskar^25,Delalleau和Bengio^13,Mhaskar和小山^24,什和沙密。^15,Telgarsky^40,科恩和Shashua¹¹几乎所有这些结果都是在“总体水平”上的，表明整个领域的哪些功能可以或不可以由具有特定数量参数的特定类型的神经网络表示。例如，众所周知，在人口水平，深度k通常比深度更强大吗k−1。

我们认为，在实践中更相关的是神经网络在有限大小样本上的表达能力n。利用一致收敛定理，可以将总体水平的结果转化为有限样本的结果。然而，这种一致收敛边界要求样本量在输入维数上多项式大，在网络深度上呈指数级，这在实践中显然是不现实的要求。

我们转而直接分析神经网络的有限样本表达性，注意到这极大地简化了图像。具体来说，只要参数的个数p的值大于n，即使是简单的两层神经网络也可以表示输入样本的任何函数。我们称之为神经网络C能表示样本大小的任何函数吗n在d尺寸为每个样本年代⊆R^d与|年代| =n和每一个功能f：年代→R，存在一个权值的设定C这样C（x) =f（x),每x∈年代．

定理1。存在一个具有ReLU激活和2n + d权值的两层神经网络，它可以表示d维大小为n的样本上的任何函数。

证明见Zhang et al.的附录C，⁴⁴我们在哪里也讨论一下如何实现宽度O（n / k)与深度k。我们注意到，在我们的构造中，给出系数向量的权值的边界是一个简单的练习。引理1⁴⁴给出了矩阵最小特征值的一个界一个。这可以用来给出解决方案权重的合理界限w。

回到顶部

5.隐式正则化:对线性模型的呼吁

尽管由于许多原因，深度神经网络仍然是神秘的，但我们在本节中注意到，理解线性模型的泛化来源也不一定容易。事实上，求助于线性模型的简单情况，看看是否有并行的见解，可以帮助我们更好地理解神经网络，这是有用的。

假设我们收集n不同的数据点{(x_我,y_我)}x_我是d-维特征向量和y_我是标签。设loss表示非负损失函数，其中loss(y,y) = 0，考虑经验风险最小化(ERM)问题

如果d≥n，那么我们就可以贴上任何标签。但是，是否可以使用如此丰富的模型类进行泛化而不显式地进行正则化呢?

让X表示n×d数据矩阵的我th行．如果X有排名n然后是方程组Xw＝y不管右边是多少，都有无限个解。在ERM问题(2)中，我们可以通过简单地求解该线性系统找到全局最小值。

但是所有的全局极小值都能归纳得一样好吗?有没有办法确定什么时候一个全局最小值可以泛化而另一个不能?理解极小值性质的一种流行的方法是解处损失函数的曲率。但在线性情况下，所有最优解的曲率是相同的。⁹要明白这一点，请注意在when的情况下y_我是一个标量,

在哪里．类似的公式可以在什么时候找到y向量值。特别是，黑森不是一个函数的选择w。并且，在全局最优解处，Hessian是退化的。

如果曲率不能区分全局极小值，那什么能?一个有前途的方向是考虑主力算法，随机梯度下降(SGD)，并检查SGD收敛到哪个解。因为SGD的更新采用了表格w_t＋1＝w_t−η_te_tx_{我_t}那里的η_我步长和e_t为预测误差损失。如果w₀= 0，我们必须知道解有这样的形式对于一些系数α．因此，如果我们管理新加坡消防局，我们就会有这种情况w＝X^Tα在于数据点的跨度。如果我们也完美插值标签，我们有Xw＝y。执行这两个等式，就可以简化为一个方程

已一个独特的解决方案。注意，这个方程只依赖于数据点之间的点积x_我．我们由此推导出了“核技巧”³⁴——尽管是以迂回的方式。

因此，我们可以通过形成Gram矩阵来完美地拟合任何一组标签内核矩阵)在资料上K＝XX^T求解线性方程组Kα＝y为α．这是一个n×n可在标准工作站上求解的线性系统n与CIFAR10和MNIST等小型基准的情况一样，小于10万。

令人惊讶的是，精确地拟合训练标签对凸模型产生了优异的性能。在没有预处理的MNIST上，我们可以通过简单的求解实现1.2%的测试误差Kα＝y在像素表示上使用高斯核。注意，这并不简单，因为内核矩阵需要在内存中存储30 GB。尽管如此，该系统可以在3分钟内在24核和256 GB RAM的商用工作站上通过传统的LAPACK调用解决。通过对数据进行Gabor小波变换，然后求解(3)，MNIST误差降至0.6%。令人惊讶的是，添加正则化并没有改善这两个模型的性能!

CIFAR10也得到了类似的结果。简单地在像素上应用高斯核并且不使用正则化可以获得46%的测试误差。通过使用带有32,000个随机滤波器的随机卷积神经网络进行预处理，该测试误差降至17%^b．添加ℓ₂正则化进一步将这个数字减少到15%的误差。注意，这是没有任何数据扩充的。

注意，这个内核解决方案在隐式正则化方面有一个很有吸引力的解释。简单的代数表明它等价于最低ℓ₂-规范解决方案的Xw＝y。也就是说，在所有精确拟合数据的模型中，SGD往往会收敛到范数最小的解。的解很容易构造Xw＝y例如，可以将高斯核拟合到数据中，并将中心放置在随机点上。另一个简单的例子是强制数据适合测试数据上的随机标签。在这两种情况下，解的范数明显大于最小范数解。

不幸的是，这种最小范数的概念并不能预测泛化性能。例如，回到MNIST的例子ℓ₂无预处理的最小范数解的范数约为220。通过小波预处理，范数跳到390。然而，测试误差下降了2倍。因此，尽管这种最小范数直觉可以为新的算法设计提供一些指导，但它只是泛化故事中非常小的一部分。

回到顶部

6.结论

在这项工作中，我们提出了一个简单的实验框架来询问所谓的泛化措施。我们进行的实验强调有效的能力在几个成功的神经网络架构中，有一个大到足以粉碎训练数据。因此，这些模型在原则上是足够丰富的，可以记住训练数据。这种情况对统计学习理论提出了一个概念上的挑战，因为传统的模型复杂性度量难以解释大型人工神经网络的泛化能力。从我们的实验中得到的一个重要见解是，优化在经验上仍然是容易的，即使得到的模型不能推广。因此，推动泛化的因素与在实践中使深度神经网络优化变得容易的因素是不一样的，这是另一个重要的——但正如我们所展示的，也是截然不同的——问题。

我们现在所处的处境，与机器学习在上世纪60年代的处境很相似。机器学习的第一个显著成功要追溯到1958年Rosenblatt发现的感知器算法。在现代语言中，感知机从标记的例子中学习线性函数。每次循环处理一个例子的数据，每当感知机遇到一个例子，其中线性函数的符号与二进制标记不一致时，它就会将线性函数的系数向这个例子靠近或远离这个例子。20世纪60年代的分析为感知机提供了泛化结果，假设存在某种解决方案，可以恰当地标记我们可能看到的所有数据。流行的随机梯度方法的一个实例，感知机，仍然与现代机器学习实践惊人地相似。实际上，第5节中关于线性模型的结果实际上是对感知机60年前的结果的推广。

现在和过去的主要区别在于规模和复杂性。在一个简单的线性函数的地方，我们发现复杂的模型堆叠了几个非线性转换，所谓的层，在彼此之上。每一层都有自己的一组可训练参数。这样的串联增加了复杂性:我们不再得到感知机漂亮的收敛定理和泛化定理。经典的感知器理论解释了过度参数化的原因线性模型在某些特殊情况下可以推广，但这些结果并不能解释非线性模型的力量。

6.1.对最近进展的部分调查

本文原文⁴⁴激发了大量关于泛化的新工作，我们在这里无法全面考察。然而，我们将试图总结一些总体趋势。

鉴于我们观察到基于一致收敛性或一致稳定性的传统泛化边界不适用于过参数化深度神经网络，我们对更紧密的泛化边界做出了大量努力(例如，Kawaguchi等人，¹⁹巴特利特et al .,⁵Neyshabur et al .,²⁸Golowich et al .,¹⁷梁等。^20.)．在PAC-Bayes设置，其中学习算法允许输出一个分布的参数，新的泛化边界也导出。^14,29,2,46

我们观察到过参数化的深度网络即使在没有任何显式正则化的情况下也可以泛化，我们对线性模型中的隐式正则化进行了分析，结合这一点，人们对通过描述学习算法诱导的隐式正则化来解释深度学习中的泛化重新产生了兴趣。^37,38,35,1

对过参数化模型记忆的深入分析，也将我们对过拟合的直觉从传统的u型风险曲线扩展到了“双下降”风险曲线。具体而言，在模型容量大大超过训练集规模的过参数化状态下，拟合所有训练示例(即插值训练集)，包括有噪声的训练集，并不一定与泛化不一致。^23,7,6,16

尽管在过去几年里，对深度学习的理论理解取得了重大进展，但对整个故事的完整数学描述仍然具有挑战性。从这篇论文的最初版本开始，⁴⁴更多的工作开始接近理解深度学习使用的问题实证研究，通过设计系统的和有原则的实验(如Arpit等，^3.赵et al .,⁴⁵Morcos et al .,²⁶雷希特et al .,³³Toneva et al。⁴¹)．在这篇论文中提出的随机化检验是许多研究中实验设计的支柱。目前，在所有主要的机器学习会议上都组织了关于深度学习现象的专门研讨会。甚至一些理论会议也开始考虑纯实证研究，这些研究揭示了“有趣但不被很好理解的行为”^c征稿启事。因此，我们很高兴看到在接下来的四年里会发生什么，也很高兴强调了自我们写原始手稿以来在过去四年里的一些发展。

数字观看作者在独家报道中讨论这项工作通信视频。//www.eqigeno.com/videos/understanding-deep-learning

回到顶部

参考文献

1.胡玮，罗勇。深度矩阵分解中的隐式正则化。在神经信息处理系统的研究进展。H.沃拉赫，H.拉罗谢尔，A.贝格尔齐默，F. d'Alché Buc, E.福克斯，和R.加内特，编。32卷。。柯伦联合公司，2019,7411-7422。

2.Arora S.， Ge, R.， Neyshabur, B.， Zhang Y.一种基于压缩方法的深度网络的更强泛化边界。在机器学习国际会议。J.迪和A.克劳斯，编。2018年,254 - 263。

3.阿比特，D.， Jastrzbski, S.， Ballas, N.， Krueger, D.， Bengio, E.， Kanwal, m.s.， Maharaj, T.，菲舍尔，A.， Courville, A.， Bengio, Y.， lacosteen - julien, S.深度网络记忆的进一步研究。在机器学习国际会议。D. Precup和y.w.teh, eds。2017年,233 - 242。

4.神经网络模式分类的样本复杂度——权重的大小比网络的大小更重要。IEEE反式。通知。理论， 44(1998)， 525-536。

5.巴特利特，福斯特，d.j.， Telgarsky, M.J.神经网络的频谱归一化边界。放置神经通知。的过程。系统。2017年,6240 - 6249。

6.贝尔金，徐德华，马淑华，曼达尔，徐德华。调和现代机器学习实践与经典偏差-方差权衡。Proc。国家的。学会科学。32地球物理学报，116(2019)，15849-15854。

7.Belkin, M, Hsu, D.J, Mitra, P.过拟合还是完美拟合?插值的分类和回归规则的风险边界。放置神经通知。的过程。系统。, 2018, 2300 - 2311。

8.稳定性与泛化。j·马赫。学习。Res。2(2002) 499 - 526。

9.罗罗曼斯卡，赫纳夫，马thieu, M.， Arous, G.B, LeCun, Y.多层网络的损耗面。在人工智能与统计学。G. Lebanon和S.V.N. Vishwanathan主编。2015年,192 - 204。

10.Coates, A. Ng, A.Y.学习特征表示与k则。在神经网络:交易的技巧，重新加载。施普林格,2012年。

11.科恩，N.， Shashua, A.卷积整流网络作为广义张量分解。在机器学习国际会议。M.F.巴尔坎和K.Q.温伯格编的。2016年,955 - 963。

12.s型函数的叠加逼近。数学。控制信号。4系统。， 2(1989)， 303-314。

13.浅的和积网络与深的和积网络。在神经信息处理系统的研究进展．J.肖-泰勒，R.泽梅尔，P.巴特利特，F.佩雷拉，K.温伯格，编。柯伦咨询，2011,666-674

14.Dziugaite, G.K, Roy, D.M.具有比训练数据更多参数的深度(随机)神经网络的非空泛化边界计算。在第三十三届人工智能不确定性会议论文集。2017.

15.Eldan, R.， Shamir, O.前馈神经网络深度的力量。在学习理论会议。V.费尔德曼，A.拉赫林，和O.沙米尔，编。2016年,907 - 940。

16.学习需要记忆吗?一个关于长尾巴的小故事。arXiv预印本arXiv: 1906.05271(2019)。

17.N. Golowich, A. Rakhlin, O. Shamir .神经网络的大小无关样本复杂度。在学习理论会议。pr . Sébastien Bubeck, V. Perchet, eds。, 2018, 297 - 299。

18.哈特，雷希特，B，辛格，Y.训练得快，推广得好:随机梯度下降的稳定性。在机器学习国际会议。M.F.巴尔坎和K.Q.温伯格编的。2016年,1225 - 1234。

19.Kaelbling, L.P, Bengio, Y.深度学习的泛化。相关系数, arXiv: 1710.05468(2017)。

20.Liang, T.， Poggio, T.， Rakhlin, A.， Stokes, J. Fisher-rao度规，几何，神经网络的复杂性。在第22届国际人工智能与统计会议。K. Chaudhuri和M. Sugiyama主编。arXiv: 1711.01530(2017), 888 - 896。

21.林杰，卡莫里亚诺，罗斯科。多通道SGM的泛化性质和隐式正则化。在机器学习国际会议。M.F.巴尔坎和K.Q.温伯格编的。2016年,2340 - 2348。

22.利夫尼，R.，沙利夫-施瓦茨，S.，沙米尔，O.训练神经网络的计算效率。在神经信息处理系统的研究进展加赫拉玛尼、韦林、科尔特斯、劳伦斯和温伯格主编。中国生物医学工程学报，2014,38(5):855-863。

23.马，S.， Bassily, R.， Belkin, M.插值的力量:理解sgd在现代过参数化学习中的有效性。在机器学习国际会议。J.迪和A.克劳斯，编。2018年,3325 - 3334。

24.深网络与浅网络:一个近似理论的视角。肛交。: 614(2016)。

25.多层前馈人工神经网络的近似性质。放置第一版。数学。1， 1(1993)， 61-80。

26.Morcos, A.， Raghu, M.， Bengio, S.关于典型相关神经网络的表征相似性的见解。放置神经通知。的过程。系统. .2018年,5727 - 5736。

27.Mukherjee, S.， Niyogi, P.， Poggio, T.， Rifkin R.统计学习:稳定性对于泛化是充分的，对于经验风险最小化的一致性是必要和充分的。技术报告AI备忘录2002-024。麻省理工学院，2002年。

28.Neyshabur, B.， Bhojanapalli, S.， McAllester, D.， Srebro, N.探讨深度学习中的泛化。放置神经通知。的过程。系统。, 2017, 5947 - 5956。

29.Neyshabur, B.， Bhojanapalli, S.， Srebro, N.神经网络频谱归一化边界的PAC-Bayesian方法。在学习表征国际会议, 2018年。

30.Neyshabur, B.， Tomioka, R.， Srebro, N.寻找真正的归纳偏差:内隐正则化在深度学习中的作用。相关系数、abs / 1412.6614, 2014年。

31.Neyshabur, B, Tomioka, R, Srebro, N.神经网络中基于规范的容量控制。在学习理论会议。S.K. Peter Grünwald和E. Hazan, eds。2015年,1376 - 1401。

32.卜乔、里夫金、穆克吉、尼约吉、李晓明、李晓明。学习理论中预测性的一般条件。大自然6981年， 428(2004)， 419-422。

33.Recht, B.， Roelofs, R.， Schmidt, L.， Shankar, V. imagenet分类器可以推广到imagenet吗?arXiv预印本arXiv: 1902.10811(2019)。

34.Schölkopf, B.赫布里希，R.斯莫拉。广义表征者定理。在学习理论会议。2001年,416 - 426。

35.Shah, V.， Kyrillidis, A.， Sanghavi, S.对于过参数化问题，最小范数解并不总是很好推广。相关系数。arXiv: 1811.07055(2018)。

36.沙利夫-施瓦茨，S.，沙米尔，O.，斯雷布罗，N.，斯里达兰，K.学习性、稳定性和一致收敛性。j·马赫。学习。Res。， 11(2010)， 2635-2670。

37.王晓明，王晓明，王晓明。广义和随机梯度下降的贝叶斯视角。在学习表征国际会议, 2018年。

38.Soudry, D.， Hoffer, E.， Nacson, m.s.， Gunasekar, S.， Srebro, N.可分离数据上梯度下降的隐式偏差。j·马赫。学习。研究》70， 19(2018)， 1-57。

39.N. Srivastava, Hinton, g.e.， Krizhevsky, A.， Sutskever, I.， Salakhutdinov, R. Dropout:一种防止神经网络过拟合的简单方法。j·马赫。学习。> 1， 15(2014)， 1929-1958。

40.神经网络深度的好处。在学习理论会议。V.费尔德曼，A.拉赫林，和O.沙米尔，编。2016年,1517 - 1539。

41.Toneva, M.， Sordoni, A.， des Combes, r.t.， Trischler, A.， Bengio, Y.， Gordon, G.J.深度神经网络学习过程中例子遗忘的实证研究。在ICLR, 2019年。

42.Vapnik, V.N.统计学习理论。适应和学习信号处理、通信和控制系统“，”威利,1998年。

43.Yao, Y.， Rosasco, L.， Caponnetto, A.关于梯度下降学习中的早期停止。Const。约2， 26(2007)， 289-315。

44.张c, Bengio, S, Hardt, M, Recht, B, Vinyals, O.理解深度学习需要重新思考泛化。在学习表征国际会议。2017.

45.赵胜，任宏华，袁爱华，宋建军，古德曼，埃尔蒙。深度生成模型的偏差与泛化:一个实证研究。在神经信息处理系统的研究进展S.本吉奥、H.瓦拉赫、H.拉罗谢尔、K.格劳曼、N.塞萨-比安奇和R.加内特主编。中国生物医学工程学报，2018,10801 - 1092。

46.周伟，Veitch, V.， Austern, M.， Adams, r.p.， Orbanz, P. ImageNet尺度下的非空泛化边界:pac -贝叶斯压缩方法。在学习表征国际会议, 2019年。

回到顶部

作者

Chiyuan张（chiyuan@google.com)，谷歌Brain，山景城，加利福尼亚州，美国。

萨米Bengio（bengio@google.com)，谷歌Brain，山景城，加利福尼亚州，美国。

莫里茨哈特（hardt@berkeley.edu)，加州大学伯克利分校，加州，美国。在谷歌Brain进行的工作。

本杰明·雷希特（brecht@berkeley.edu)，加州大学伯克利分校，加州，美国。在谷歌Brain进行的工作。

Oriol Vinyals（vinyals@google.com)， DeepMind，伦敦N1C 4AG，英国

回到顶部

脚注

a.我们说“潜在的”，因为要使这个表述严格，我们需要有另一个独立的测试集，当我们在第一个测试集上选择早期停止点时，在那里测试性能(就像一个验证集)。

b.这是科茨夫妇和吴恩达夫妇¹⁰但是用随机选择的过滤器而不是用k则。

c.引自《算法学习理论(ALT) 2020》征稿。

这篇论文的原始版本发表在五人会议记录^th学习表征国际会议, 2017年。

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝，但不得为盈利或商业利益而复制或分发，且副本在首页上附有本通知和完整的引用。除ACM外，本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表，都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

没有发现记录

理解深度学习(仍然)需要重新思考泛化

1.简介

2.神经网络的有效容量

3.正规化的作用

4.有限样本表达能力

5.隐式正则化:对线性模型的呼吁

6.结论

参考文献

作者

脚注

文章内容:

由两种原子构成的量子计算阵列

类人程序滥用我们的同理心

人工智能是自然科学的替代品?