ACM

ACM通信

首页 / 杂志存档 / 2023年2月(第66卷第2期) / 精益数据科学家:克服…的最新进展 /全文

评论文章

精益数据科学家:克服数据瓶颈的最新进展

文/陈珊妮，乔纳森·扎雷基，达夫娜·沙哈夫
ACM通讯，2023年2月，第66卷第2期，第92-102页
10.1145 / 3551635
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit上分享在StumbleUpon上分享分享黑客新闻在推特上分享在Facebook上分享

锥形红球集合，插图 — 图源:Alicia Kubista / Andrij Borys Associates

获取数据已经成为许多机器学习(ML)应用程序的关键瓶颈。深度学习的兴起进一步加剧了这个问题。虽然高质量的ML模型终于从昂贵的开发、高度专业化的代码转变为更像商品的东西，但这些模型涉及数百万(甚至数十亿)的参数，需要大量的数据来训练。因此，当今ML的主导范式是在面临新任务时创建一个新的(大型)数据集。事实上，现在有专门用于创建新的数据资源的整个会议(例如，国际语言资源和评估会议或CIKM的资源论文)。

回到顶部

关键的见解

虽然这种方法取得了重大进展，但它也面临一个重大问题，因为收集大型、高质量的数据集通常在时间和人力资源方面要求很高。对于一些任务，例如罕见疾病检测，构建大型数据集几乎是不可行的。

虽然已经有很多努力提出了变通办法data-bottleneck问题是，他们分散在许多不同的子领域，往往不知道彼此。存在许多特定于方法和特定于领域的调查，但是很难找到更广泛的、大范围的调查。与我们的工作精神最接近的是卢等人，³³其中更侧重于数据管理的观点和管道的早期阶段。

在这篇文章中，我们的目标是使这一领域井然有序。我们的主要贡献是对解决数据瓶颈的方法进行了简单而全面的分类。我们调查了主要的研究方向，并将它们组织成一个分类，以便于从业者在不同的方法之间进行选择。这里的重点不是深入地覆盖方法;相反，我们将讨论各种方法背后的主要思想、它们所做的假设及其基本概念。对于每个主题，我们都会提到几部重要或有趣的作品，并尽可能为感兴趣的读者提供调查。

我们希望首先提高认识已经存在的方法，鼓励更有效地使用数据。此外(也许更重要的是)，我们希望分类法的组织也能揭示当前技术的差距，并提出新的研究方向，从而激发新的、不那么需要数据的学习方法的创造。

回到顶部

障碍:缺少数据

通常情况下，数据很难(或不可能)获得。下面，我们从左分支中考察一些主要的方法图1:高效地获取更多示例，为现有数据添加信息维度，或利用相关任务。

添加示例。本类别主要介绍获取更多示例的方法。

数据集可以被重用

将现有数据集用于新用途。

数据集可以被重用可能是添加数据的最明显的方法，这里提到它是为了完整起见。其思想是将现有数据集用于与最初构造数据集的目的不同的任务。

例如，ImageNet最初是用于分类的，但后来被重用用于图像生成。⁴⁵类似地，MS-COCO图像字幕数据集被重用用于训练视觉接地的单词嵌入。^20.

数据再利用还包括转换在现有数据集上。例如，考虑修补，即根据周围信息恢复图像丢失部分的过程。Inpainting是使用各种已有的数据集完成的，如CelebA, Place2和ImageNet，³⁹同一图像在哪里分裂成两部分X而且Y(有时不止一种方式)。

当然，也有可能重新使用一个完全没有考虑机器学习任务的数据集:例如，Bertero和Fung⁶使用电视情景喜剧的数据集进行监督幽默检测任务，记录的笑声作为标签。

数据增加

执行转换X放大数据集。

数据增加是生成更多数据的常用方法;它通过应用修改来人为地膨胀训练集。这种方法的最初目标是防止过拟合。

通常采用数据增强附近风险最小化(VRM)。⁴⁸在VRM中，需要人类的知识来定义训练数据中每个示例的邻域，并从这个邻域分布中抽取虚拟示例。在计算机视觉领域最容易证明这个想法;在那里，常见的增强是几何变换，如翻转、裁剪、缩放和旋转(参见图2)．其思想是使分类器在位置和方向上不变。类似地，光度变换修改颜色通道，使分类器不受光照和颜色变化的影响。

图2。由Taylor和Nitschke提供的图像的常见数据增强操作示例。⁴⁰

数据增强可以改善泛化，特别是对于小数据集^3.或者当数据集不平衡时(而不是采样不足时，这是数据效率低的)。

增强方法最近引起了人们的极大兴趣。最近的进展包括联合训练一个模型来生成增强，²⁸以及学习哪些增强最适合数据的方法。⁷例如，AutoAugment⁷随机选择批处理转换的子策略，并搜索产生最高验证准确性的子策略。

除了人类定义的转换，最近的方法建议使用预训练的生成对抗网络(GANs)来创建新的示例。有趣的是，生成的数据点不一定是可说明的由人类。例如，Mixup⁵⁹训练一个神经网络对凸组合的例子和他们的插值标签，把它作为“噪声”训练数据。

关于现有数据的更多信息。这组方法不是添加新的数据点，而是将重点放在向现有点添加维度上。

多模式学习

从多种形态中整合有关X的相关信息。

多模式学习尝试丰富学习算法的输入，让学习者接触到的模态不止一种X；例如，带有标题的图像。多模态学习是直观的，就像婴儿学习一样(也就是说，孩子看到新物体时通常伴随着额外的语义信息)。多模态学习的主要缺点是获取丰富的输入并有效地将其集成到模型中。

虽然“多模态学习”这个术语是最近才出现的，但许多作品都结合了来自不同模态的信息。^11，22，41这些工作，以及最近的工作，显示了这种方法作为减少数据需求和提高泛化的有效方法的前景。

此外，多模态学习也经常用于数据点数量非常小的情况，特别是少数、一和零镜头学习(当学习过程中只有少数目标特定的标记示例存在时;因此，学习者必须只用少量的例子来理解新概念)。比如维索茨基等人。⁵¹使用多模态学习通过集成额外的每个样本信息进行少镜头学习——在这种情况下，输入图像中出现的对象列表(参见图3)．Schwartz等人。³⁷通过将图像与多种和更丰富的语义(类别标签、属性和自然语言描述)相结合，证明了在流行的miniImageNet和CUB少镜头学习基准上，有可能超过以前的最先进结果。

图3。Visotsky等人使用的学习设置的说明。⁵¹

课程学习

通常根据难度，按照预定的顺序向学习者展示例子。

在课程学习在美国，学习者会接触到使用预先设定的课程的例子，其中的例子通常是按照难度的递增顺序排序的。元数据在X需要确定它在学习过程中的位置。

课程学习背后的动机来自人类，因为教师倾向于从教授更简单的概念开始(例如，先学习骑带辅助轮的自行车)。因此，课程学习试图增加训练实例的难度分数，通常对应于典型性。

给定难度分数，算法从一组简单的数据点开始，在整个学习过程中逐渐增加训练样例的难度。这种递进使模型能够通过一些简单的例子来学习广泛的概念，然后用更困难的例子来完善概念。图4上面一行的狗的照片更典型，分类器应该更容易识别。

图4:在狗和猫的分类任务中，狗的典型和非典型图像分别被认为是容易和困难的。

课程学习已被证明可以提高性能，同时减少收敛所需的示例数量。¹⁷例如，zarenmba和Sutskever⁵⁸展示了课程如何在不执行的情况下预测Python代码输出的任务。

课程学习的一个主要警告是对难度标签估计器的内在需求。人类对难度的标注可能非常苛刻，甚至可能比标准的注释还要苛刻。在实践中，每个例子的难度往往是由教师模型来学习的，教师模型可以访问相关的训练数据。¹⁷

一个相关的概念是自主学习(SPL)。¹⁹从直观上看，SPL的课程是由学生的能力决定的，而不是由老师固定的。SPL不是启发式地设计难度测量，而是在学习目标中引入正则化函数，其目标是优化模型本身的课程。这使得SPL具有广泛的适用性。

基于论证的机器学习

利用专家的局部知识来限制搜索空间。

基于论证的机器学习ABML是一种约束搜索空间的方法专家的本地知识。²⁶简而言之，在ABML中，学习者试图在规则归纳过程中找到if-then规则来解释论证示例。学习者首先要找到一个规则，将其添加到一组规则中，并删除该规则涵盖的所有训练数据点。重复此过程，直到删除所有示例。ABML的主要优势是使用专家知识进行论证具体的举例，这往往比解释全球现象容易。

例如，Moina等人。²⁶将ABML用于已故患者的医疗记录，其中他们使用医生对死亡原因的推理来限制搜索空间。

数据瓶颈问题在机器学习领域普遍存在。

ABML可能不如本节中的其他方法流行。然而，如果专家局部知识是可用的，ABML是一种强大的方法来整合部分先验知识。此外，诱导的假设对专家来说应该更有意义，因为它必须与输入的参数一致。

编码相关知识的模型。在这里，我们超越了训练任务模型的经典管道;我们提出了可以利用其他相关任务的模型。

多任务学习

同时共同学习多个任务，增强跨任务的相似性，以便更好地泛化。

多任务学习(MTL)是一个突出的研究领域，人们试图同时训练多个不同的(但相关的)任务。这些多个任务是同时解决的，利用它们之间的共性和差异。

研究表明，挑战学习者同时解决多个问题会在每个单独的任务上产生更好的泛化和更好的表现。³⁶事实上，MTL在视觉和NLP中都得到了成功的应用。在没有大型数据集的情况下取得成功的关键因素是:这是一种基于跨任务共性的隐式数据增强方法;它能够解开交叉任务和特征相关性;鼓励分类器在稍微不同的任务上也表现良好是一种比不知情的正则化更好的正则化(例如，强制权重较小，这是典型的l2-regularization)。

以垃圾邮件过滤为例。通常，来自单个用户的数据不足以训练模型。直观地说，不同的人对区分垃圾邮件和合法电子邮件的特征有不同的分布。例如，俄语电子邮件对说英语的人来说可能是垃圾邮件，但对说俄语的人来说不是。但是，可以利用用户间的共性来解决这个问题(例如，与汇款有关的文本可能是垃圾邮件)。为了建立这些相似性，Attenberg等人。⁴创建了一个基于mtl的垃圾邮件过滤器，将每个单独的用户视为一个不同但相关的分类任务，并在不同用户之间训练一个模型。

MTL学习的一个最近的例子是T5模型(见图5)．²⁹该模型在许多NLP基准测试中获得了最先进的结果，同时具有足够的灵活性，可以对各种下游任务进行微调。T5接收手头的任务作为输入，因此允许对任何NLP任务使用相同的模型、损失函数和超参数。

图5。Raffel等人提出的多任务范式。²⁹

MTL实现可以分为两大类——隐藏层的硬参数共享和软参数共享，其中硬参数共享更常用。在硬类型中，隐藏层在所有任务之间共享，同时保留几个特定于任务的输出层。巴克斯特⁵表明，硬参数共享降低了过拟合到N阶(任务数量)的风险，这小于过拟合任务特定参数(输出层)的风险。在软参数共享中，每个任务都有自己的模型和参数。然后对模型参数之间的距离进行正则化，以鼓励它们相似(增强交叉任务的相似性)，如Duong等人所做的那样。¹⁰

转移学习

将在解决一个问题时获得的知识转移到另一个不同但相关的问题上。

转移学习是一种被广泛使用的、高效的整合先验知识的方法，就像人类一样，人类从来不会用一张白纸来处理新问题，而是拥有对类似问题及其解决方案的丰富经验。⁴²

这个想法是使用在相关任务上训练过的现有模型。这些预训练的模型通常用作初始化，用于使用手头任务的小数据集进行微调。因此，收敛所需的特定于任务的示例大大减少。

与随机权重初始化相比，另一个有益的副作用是使用模型的初始宽域知识。换句话说，模型以一些相关的世界知识开始微调阶段。

例如，在ImageNet上训练的模型已经被转移到医疗成像任务中，包括检查胸部x光⁵⁴以及视网膜眼底图像。⁸这个想法是，在一个庞大而多样的图像数据集上训练的网络，在其早期层捕获普遍的视觉特征，如曲线和边缘(类似于人类和许多其他哺乳动物的初级视觉皮层，这是一个获得诺贝尔奖的发现^一个)．尽管ImageNet中的图像与下游任务中的图像存在差异，但这些特征与许多视觉任务相关。因此，这种方法大大减少了所需的特定于任务的标记数据的大小。

在NLP中，常用的预训练模型BERT在各种任务中取得了最先进的结果。⁹这种模型的预训练通常在一个self-supervised方式，其中输入的不同部分被掩盖，学习器的目标是预测被掩盖的部分。例如，给定一个句子，可以遍历它，每次屏蔽一个不同的单词，以创建各种示例。

深度网络中的微调通常是通过添加未训练的最后一层并在特定于任务的小型数据集上训练新模型，或者采用下一层的输出嵌入来完成的。另一种可能的微调技术是用相对较小的学习率训练整个网络;也就是说，在已经相当不错的权重上执行小的更改(作为启发式，大约比用于预训练的学习率小10倍)。微调也可以通过冻结预训练模型的前几层的权重来完成。这种技术背后的动机是，第一层捕获可能也与新任务相关的通用特征。因此，在调优期间冻结它们可以保留捕获到的与原始任务和新任务都相关的信息。

综上所述，迁移学习是一个强大的工具，既可以减少所需的任务特定数据量，又可以提高模型的性能。

元学习

根据多个学习片段的经验进行归纳，改进学习算法。

元学习(也被称为“学习学习”)是机器学习的一个最新子领域，¹²专注于设计能够快速学习新任务或适应新环境的模型，只有少数训练示例。它基于创建一个元学习器，该元学习器对相关主题具有广泛的先验知识。元学习也受到人类学习的启发。例如，会骑自行车的人更有可能很快学会骑摩托车。

请注意，虽然元学习通常可以与MTL系统进行有意义的结合，但它们的目标是不同的。MTL的目标是解决所有的训练任务，元学习的目标是利用训练任务解决小数据的新任务。因此，元学习是关于创建模型之前的经验能够迅速适应新任务。具体而言，元学习器通过任务逐步学习元知识，可以使用很少的任务特定信息将其推广到新的任务中。

元学习有三种常见的方法:基于度量(类似于最近邻算法)、基于优化(元梯度优化)和基于模型(不假设数据分布)。

作为基于度量的方法的一个例子，Vinyals等人。⁵⁰提出了一个框架，该框架显式地从给定的支持集学习，以最小化批处理的损失。其结果是，模型学会了将一个小的、有标记的支持集和一个未标记的示例映射到它的标签，从而避免了为适应新的类类型而进行微调的需要。然后他们展示了这种方法在视觉和NLP任务中的优越性。

在基于优化的研究领域中，一个著名的工作是模型不可知论元学习(MAML)，这是一种通用的优化算法，与任何基于梯度下降的模型兼容。¹²它使用了一种元损失，专门用于在对新任务进行微调时诱导快速更改N梯度(N是任务的总数)。

在基于模型的研究中，Munkhdalai和Yu²⁷介绍了MetaNet，这是一种专门为跨任务快速泛化而设计的元学习模型。MetaNet的快速泛化依赖于“快速权重”，它是网络参数的变化时间尺度小于常规的基于梯度的权重变化。这种赫比短期可塑性维持了网络中单元活动最近历史动态变化的短期记忆，与标准的缓慢循环连接相反。该模型在多个任务中优于其他各种循环模型。

回到顶部

障碍:缺少标签

现在我们把注意力转向第二个主要分支图1在美国，未标记的数据很丰富，但标签很少(或根本没有标签)。这种设置在实践中很常见，因为未标记的数据通常比标记的数据更容易获得。在本节中，我们将介绍两种主要方法。第一种方法处理有效获取标签的方法，而另一种方法使用弱标签。

主动学习

生成接近决策边界的示例。这些例子应该比随机例子更有助于学习过程。

有效获取标签。当需要更多的标签，但注释成本很高时，一个直接的问题是如何获取新的标记数据高效。这方面的主要例子是主动学习，在这种学习中，学习者可以迭代地查询oracle(信息源)来标记新的数据点。³²这些查询可以包括来自数据集或新的无数据点的未标记示例，这些数据点通常接近决策边界。其基本原理是，并非所有的示例都对学习过程有同样的贡献:对于学习者来说很难分类的不同示例可能特别有用，并且可能会减少学习所需的数据点数量。

有许多方法可以确定接下来应该查询训练集中的哪些数据点。常见的目标包括选择对当前模型改变最大的示例，当前模型最不确定的示例，或者与数据分布相似的不同示例。例如，Hacohen等人。¹⁶最近的研究表明，在数据很少的情况下，用典型的例子来表示模型是最有益的(相比之下，在有更多数据的情况下，最好使用接近决策边界的例子)。

当生成新例子(而不是从训练集中选择未标记的例子)，重要的是要记住，人类将是标记它们的人。我们想指出的是，虽然数据增强会修改输入，但是保持它的标签(如前所述)，主动学习生成示例没有标签。因此，生成算法应该保持新点的可解释性，即确保它们有清晰的标签。¹⁴例如，Zarecki和Markovitch⁵⁷通过替换使句子更接近分类边界的关键词(同时保持其语法)，自动转换句子的情感。

最近的方法使用GANs来生成新的例子，或者从头开始(并标记它们)，⁶⁰或者通过修改现有的示例(同时试图保留标签)。⁴³在标记一个新示例后，这两种场景都会同时更新学习者和GAN模型。

重要的是，GAN方法比基于转换的方法更具表现力，但结果通常更难以解释。图6显示了来自Tran等人的修改图像的示例。⁴³请注意，虽然MNIST示例(手写数字)有相对清晰的标签，但CIFAR10示例(分为10个类的小图像，如飞机、狗和船)不容易标记。

图6。GAN变换方法生成的图像用于“险些脱靶”的例子。⁴³

关于游戏化的注意事项。主动学习是减少错误的主要范式数量所需要的注释。然而，高效标记的另一种方法是减少注释的成本。一个显著的例子是游戏化-将游戏机制应用到非游戏环境中，使任务更有趣，并给予注释者提供标签的非金钱激励。游戏化的挑战通常是设计游戏以创造正确的动机。这一点非常重要，需要了解游戏设计、动机心理学以及对目标群体的理解。²⁵忽视游戏化所包含的复杂性往往会导致平庸的结果。

冯·安和达比什的开创性工作⁵²演示了一个双人图像标注游戏，玩家使用完全相同的术语描述图像可以获得分数。研究人员做出了一个著名的估计:如果用户以与其他流行网络游戏相同的速度玩这款游戏，那么网络上的大多数图像都可以在短短几个月内被贴上标签(免费)。另一个例子是无趣。幽默研究中的语料库。这个语料库是通过一个在线游戏构建的，在这个游戏中，玩家只需稍加编辑就可以将讽刺的标题变成严肃的标题。⁵⁵

弱的标签。如果我们不能有效地获取标签，我们可以选择获取有噪声的标签作为代理。在视觉中，这有时被称为“自动图像注释”。我们在这里介绍了两种主要类型的噪声标签。

关于P的假设（Y＝y|X＝x)．

Semi-supervised学习

利用有关信息P（X＝x)，通过在学习过程中整合有标记和无标记的例子来减少标记要求。

Semi-supervised学习(SSL)是一个非常大和活跃的研究领域，我们不声称涵盖所有;关于SSL的最新调查，我们建议读者参考van Engelen和Hoos。⁴⁶

SSL估计分布P（X＝x)使用大量的无标号，以减少对标注数据的要求。它对之间的关系做了强有力的假设P（X＝x),P（Y＝y | X＝x)以减少所需标记示例的数量。⁵⁶通常，这些假设采取以下形式:

平滑度:彼此靠近的点更有可能共享一个标签。更正式地说，是每两个相邻的样本x，x '应该有类似的标签。
Cluster-ability:数据倾向于形成离散的聚类，属于同一聚类的点更有可能共享一个标签。因此，决策边界只能通过特征空间中的低密度区域。
廖:数据大约位于一个维数比输入空间低得多的流形上。因此，当考虑输入空间的低维流形时，同一流形上的任何数据点都应该具有相同的标签。

所有这三个假设都可以看作是点间相似性的不同定义:平滑性将其定义为输入空间中的接近性，聚类能力假设高密度区域包含相似的数据点，流形状态表明位于同一个低维流形上的点是相似的。

当生成新的例子时(而不是从训练集中选择未标记的例子)，重要的是要记住人类将是标记它们的人。

SSL中的另一个重要区别是归纳方法和传导方法之间的区别。前者产生一个分类模型来预测一个新例子的标签，就像监督学习一样f：X→Y)．后者不产生这样的模型，而是直接提供预测。传导方法通常是基于图的，而归纳方法可以进一步分为无监督预处理，本质上是半监督的,包装器方法。⁴⁶

使用无监督预处理方法的一种常用方法是将知识用于P（X＝x)，以提取比原始维数更低维数的有用特征X从而降低学习的复杂性。这包括使用自动编码器模型学习表示⁴⁹或者应用类似PCA的降维方法。¹

在归纳方法下，也可以使用像半监督SVM这样的本质半监督模型，它改变优化目标，从标记点和未标记点中找到具有最大裕度的决策边界(例如，使用SVM)。⁴⁷这也可以通过在未标记的数据上添加一种形式的正则化来应用于神经网络。^30.

在包装器方法中，最初从可用的示例集中训练模型。⁴⁴然后对未标记的数据集进行预测。模型的伪标签将作为标记数据添加到监督学习的下一个迭代中。重复这个过程直到收敛。

数据编程

关于标记过程，集成多个弱启发式f：X→Y创建有噪声的标签。

数据编程是一个编程创建训练集的范例。在数据编程中，用户将弱监督策略或域启发式表示为标记函数(LFs)，这是标记数据子集的程序。重要的是，lf是不精确的，并且可能相互矛盾，导致有噪声的标签。通过显式地表示标记过程f：X→Y作为一种生成模型，数据编程旨在对生成的训练集进行“去噪”。

例如，在垃圾邮件检测中，如果电子邮件包含URL或汇款请求，潜在的lf将返回“垃圾邮件”，如果来自您的联系人列表中的某人，则返回“非垃圾邮件”。这些功能本身的性能很差;然而，就像集成方法(一组较弱的学习器聚集在一起，形成一个具有更高精度的强学习器)一样，数据编程的优势在于许多弱启发式的组合。

一个流行的数据编程系统是Snorkel。³¹它将(有噪声的)LFs应用于数据，并仅使用它们的一致和不一致来估计它们的准确性和相关性。然后，该信息用于重新加权并结合LF预测，以输出概率噪声感知训练标签。此过程介绍在图7．

图7。Snorkel管道的说明。

期望正规化

使用关于不同标签在数据子组中的比例的先验知识来创建噪声标签。

关于标签的先验知识比例在数据的各个子组中，可以在称为期望正规化(从标签比例中学习)。⁵³

该估计过程依赖于期望算子的一致收敛性质。它使用子组的经验方法来近似关于一个组的分布的期望。然后，后者用于计算关于给定标签的期望，最后，标签分布上的条件均值用于估计条件组均值。

这一领域的最新研究是大概的学习，它放松了已知标签比例的假设，而是假设在实例组内和组间的比例有软约束(例如，“电子邮件中提到某个单词的垃圾邮件的百分比是之间的。k_低而且k_高，或“包含链接的电子邮件至少有。k垃圾邮件比没有链接的邮件多%”)。¹⁸大球学习学习一个模型，该模型在满足这些软的、有噪声的约束的同时，对单个实例进行标记。

来自外部数据集的噪声监督。有时可以利用现有的数据集来获得有噪声的监督信号。

遥远的监督

使用已存在的数据库收集所需关系的示例。然后使用这些示例自动生成标记训练数据。

遥远的监督是使用现有数据集的常用方法。在远程监督中，在给定有标记的训练集的情况下学习模型，就像在“标准”监督ML中一样，但训练数据是弱标记的(即，基于启发式或规则自动标记)。

例如，明茨等人。²⁴使用Free-base，一个大型的，未标记的语义数据库，为关系提取提供远程监督。我们的直觉是，任何包含一对具有已知Freebase关系的实体的句子都可能以某种方式表达这种关系。²³例如，在同一句话中出现的每一对“巴拉克·奥巴马”和“米歇尔·奥巴马”都可以被提取出来作为婚姻关系的正面例子。由于包含给定实体对的句子数量可能很大，因此可以提取和组合噪声特征用于标记过程。基于这些语义信号，Mintz等人。²⁴能够使用1.16亿个未标记实例。

偶然的监督

利用数据中独立于手头任务的微弱信号。

的偶然的监督框架基于这样一种想法，即任务的信息线索可能存在于数据集中，而这些数据集中并没有考虑到该任务。例如，假设我们想通过名字来推断性别。人们可以使用维基百科，它不是为这项任务而创建的。附带的信号将是出现在维基百科页面第一段关于该名字的人的代词和其他性别标志。该信号与手头的任务相关，并且(与其他信号和推断一起)可用于监督，减少了注释的需要。

附带监督并不假定对标签过程有了解。³⁴此外，附带信号可以是有噪声的、局部的，或者与目标任务只有弱相关性，但仍然可以用来提供监督和促进学习。注意，这里的监督概念不同于远程监督:在远程监督中，模型以标准的监督学习方式学习，但训练集是基于启发式自动标记的。在附带监督中，一个完整的训练集可能永远不存在。

上下文敏感的拼写和语法检查是一项20多年来一直依赖附带监督的任务。¹³假设大多数编辑过的文本资源(书籍、报纸、维基百科)不包含许多拼写和语法错误，这些方法会生成单词、标点符号和协议等现象的上下文表示。然后使用这些表示来识别错误并以上下文敏感的方式纠正它们。³⁵

确定假设是打破假设的必要条件，而打破假设是鼓励创造力和创新的既定技术。

偶然信号力量的一个无意的例子来自图像处理，其中基于虹膜纹理的性别检测任务以极高的精度解决(大多数论文超过80%，Al-rashed和Berbar报告的分数高达99.5%²)．然而，后来人们发现，大多数模型并不能检测出一个人的性别;相反，他们检测到了睫毛膏的使用，这是一个更简单的任务，而且确实与原始任务相关。²¹因此，尽管这是无意的，但这一发现强调了使用偶然线索的潜力。

回到顶部

结论

如今ML的主导范式是创建大型的、特定于任务的数据集(通常使用众包)。在这篇综述中，我们设计了一种解决数据瓶颈问题的替代方法的分类法。该分类法旨在为不同子领域提出的各种方法带来秩序，并使其更容易确定潜在的假设和潜在的新方向。确定假设是打破假设的必要条件，而打破假设是鼓励创造力和创新的既定技术。

例如，在调查分类法时，有几个常见的假设是，样本倾向于代表我们所掌握的数据X而且Y同时，每个例子都有一个正确的标签。这提出了新的学习环境的前景(例如，如果我们只有关于数据点分布的知识会怎样P（X＝x)及标签P（Y＝y)以及聚合多个(正确但不同的)标签的新方法。

我们注意到，我们的分类法涵盖了广泛多样的技术，做出了非常不同的假设。最终，我们期望选择一种技术将通常归结为从业者可以访问什么(即满足哪些假设)。例如，在多任务学习中，实践者不仅拥有其任务的标记数据，而且还拥有多个相关任务的标记数据;在数据编程中，他们对自己的任务没有(或很少)标签，但拥有一些关于标签过程的部分知识;在课程学习中，他们知道数据点的硬度;等等......

我们进一步希望指出，在实践中是否满足方法的假设并不总是显而易见的，或者评估哪种方法更适合特定的用例。答案可能取决于许多因素，例如希望学习的概念的固有难度、数据中的偏差，或者为获得不同方法的高质量输入所需的手工工作。例如，在使用弱标签的方法中，不同弱标签的实现速度和准确性之间的权衡通常事先并不清楚。

除了收集大型数据集的固有困难之外，我们注意到人们对此类数据集的担忧越来越多，包括环境成本、财务成本、机会成本等等。³⁸我们还注意到，大型数据集仍然容易出现拟合工件，并且最近的一些方法试图解决许多现有数据集中发现的注释工件和人为偏差的反复挑战。¹⁵

总之，ML在使用大型数据集方面取得了巨大的进步，但它们并不是解决所有问题的万能药。我们希望这篇文章能够鼓励人们重新思考当前大量注释的方法。

鸣谢这项工作得到了以色列科技部和欧洲研究理事会(ERC)在欧盟地平线2020研究和创新计划下的资助(资助号为no. 1)。852686年,暹罗)。

回到顶部

参考文献

1.Alaíz, C.， Fanuel, M.，和Suykens, J.核主成分分析的凸公式及其在半监督学习中的应用。IEEE反式。神经网络与学习系统， 8(2017)， 3863-3869。

2.阿尔拉什德，H.和伯巴，M。利用眼睛图像进行面部性别识别(2013)。

3.Anaby-Tavor, A.等人。没有足够的数据?深度学习可以拯救你。在人工智能会议论文集(2020), 7383 - 7390。

4.Attenberg, J.， Weinberger, K.， Dasgupta, A.， Smola, A.和Zinkevich, M.使用哈希技巧的协作电子邮件垃圾邮件过滤。cea(2009)。

5.通过多任务抽样学习的贝叶斯/信息论模型。机器学习28， 1(1997)， 7-39。

6.Bertero, D.和Fung, P.预测电视情景喜剧对话中的幽默反应。在2016年IEEE实习生。声学、语音和信号处理, 5780 - 5784。

7.Cubuk, E.， Zoph, B.， Mané， D.， Vasudevan, V.和Le, Q. AutoAugment:从数据中学习增强策略。在2019 IEEE/CVF会议论文集。计算机视觉与模式识别, 113 - 123。

8.德福，J.等。深度学习在视网膜疾病诊断和转诊中的临床应用。自然医学24， 9(2018)， 1342-1350。

9.Devlin, J.， Chang, M.， Lee, K.和Toutanova, K. BERT:用于语言理解的深度双向转换器的预训练。在2019年协会北美分会会议记录。计算语言学:人类语言技术，1(长论文和短论文)。计算语言学协会，明尼阿波利斯，明尼苏达州，4171-4186。https://doi.org/10.18653/v1/N19-1423

10.Duong, L.， Cohn, T.， Bird, S.和Cook, P.低资源依赖解析:神经网络解析器中的跨语言参数共享。在53届会议记录^{理查德·道金斯}协会年会。计算语言学和7^th实习生。自然语言处理(短文，2015,845-850。

11.法哈蒂，A.，恩德斯，I.，霍伊姆，D.和福赛斯，D.描述对象的属性。在2009年IEEE会议论文集。计算机视觉与模式识别, 1778 - 1785。

12.Finn, C.， Abbeel, P.和Levine, S.用于快速适应深度网络的模型不可知元学习。在34届会议记录^th实习生。机器学习，第70卷。JMLR。中国农业科学，2017,31(4):344 - 344。

13.Golding, A.和Roth, D.一种基于窗口的上下文敏感拼写纠正方法。机器学习34， 1-3(1999)， 107-130。

14.Gurevich, N, Markovitch, S，和Rivlin, E.主动学习与接近。AAAI出版社，2006,362-367。

15.Gururangan, S.， Swayamdipta, S.， Levy, O.， Schwartz, R.， Bowman, S.和Smith, N.自然语言推断数据中的注释工件。2018;arXiv: 1803、02324。

16.Hacohen, G.， Dekel, A.和Weinshall, D.在预算中主动学习:相反的策略适用于高预算和低预算。2022;arXiv: 2202.02794。

17.Hacohen, G.和Weinshall, D.课程学习在训练深度网络中的作用。2019;arXiv: 1904.03626。

18.霍普，T.和沙哈夫，D.大致学习:从粗略的组比较中估计标签。在欧洲联合会议论文集。数据库中的机器学习和知识发现。施普林格，2016,299-314。

19.蒋璐，孟，D.，赵q .，单S.， Hauptmann, A.自定进度课程学习。在29届会议记录^th人工智能会议, 2015年。

20.Kottur, S.， Vedantam, R.， Moura, J.和Parikh, D. VisualWord2Vec (Vis-W2V):使用抽象场景学习基于视觉的词嵌入。在2016 IEEE会议论文集。计算机视觉与模式识别， 2015, 4985-4994。

21.Kuehlkamp, A, Becker, B，和Bowyer, K.性别来自虹膜或性别来自睫毛膏。在2017 IEEE冬季会议论文集。计算机视觉的应用, 1151 - 1159。

22.Lampert, C.， Nickisch, H.，和Harmeling, S.学习通过类间属性转移来检测看不见的对象类。在2009年IEEE会议论文集。计算机视觉与模式识别, 951 - 958。

23.林勇，刘哲，孙明，刘勇，朱欣。基于学习实体和关系嵌入的知识图补全方法。在29届会议记录^th人工智能会议, 2015年。

24.Mintz, M.， Bills, S.， Snow, R.和Jurafsky, D.对没有标记数据的关系提取的远程监督。在联合会议记录^th4 . ACL的年会^th实习生。AFNLP的自然语言处理，2。Assoc。计算语言学，2009,1003-1011。

25.Morschheuser, B.和Hamari, J.工作的游戏化:众包的经验教训。J.管理询问28， 2(2019)， 145-148。

26.莫伊娜，M.， abkar, J.，和Bratko, I.基于争论的机器学习。人工智能171， 10-15(2007)， 922-937。

27.Munkhdalai, t, Yu, h, Meta网络。在34届会议记录^th实习生。机器学习70。JMLR。王志强，2017，(4):344 - 344。

28.Perez, L.和Wang, J.数据增强在图像分类中使用深度学习的有效性。2017;arXiv: 1712、04621。

29.Raffel, C.等人。使用统一的文本到文本转换器探索迁移学习的局限性。2019;arXiv: 1910.10683。

30.拉斯马斯，A.，贝格隆德，M.， Honkala, M.，瓦尔波拉，H.和Raiko, T.使用阶梯网络的半监督学习。在少量的酒, 2015年。

31.Ratner, A.， Bach, S.， Ehrenberg, H.， Fries, J.， Wu, S.和Ré， C. Snorkel:用弱监督快速创建训练数据。VLDB J。(2019), 22页。

32.Ren, P.，等。深度主动学习综述。ACM计算调查54， 9(2021)， 1-40。

33.Roh, Y.， Heo, G.和Whang, S.机器学习数据收集的调查:大数据-人工智能集成的视角。IEEE反式。知识与数据工程， 4(2019)， 1328-1347。

34.附带监督:超越监督学习。在31届会议记录^圣人工智能会议, 2017年。

35.Rozovskaya, a .和Roth, D.正在构建一个最先进的语法错误纠正系统。Tran。Assoc。计算语言学2(2014), 419 - 434。

36.鲁德，S.深度神经网络多任务学习综述。2017;arXiv abs / 1706.05098(2017)。

37.施瓦茨，E.， Karlinsky, L.， Feris, R.， Giryes, R.，和Bronstein, A.，向使用多重语义的少次学习迈出了一小步。arXiv预印本arXiv: 1906.01905(2019)。

38.施瓦茨，R.，道奇，J.，史密斯，N.和Etzioni, O. Green AI。arXiv预印本:1907.10597, 2019年。

39.Shin, Y.， Sagong, M.， Yeo, Y.， Kim, S.和Ko, S. Pepsi++:用于图像修补的快速和轻量级网络。IEEE反式。神经网络和学习系统(2020)。

40.Taylor, L.和Nitschke, G.使用通用数据增强改进深度学习。2017;arXiv: 1708.06020。

41.田勇，史俊，李斌，段志刚，徐昌。无约束视频中的视听事件定位。在2018年欧洲计算机视觉会议论文集, 247 - 263。

42.托里，L.，沙弗利克，J.迁移学习。机器学习应用和趋势研究手册:算法、方法和技术。中国机械工程学报，2010,42 - 44。

43.Tran, T.， Do, T.， Reid, I.和Carneiro, G.贝叶斯生成式主动深度学习，2019;arXiv abs / 1904.11643。

44.Triguero, I.， García, S.和Herrera, F.半监督学习的自标记技术:分类学、软件和实证研究。知识与信息系统(2013), 245 - 284。

45.van den Oord, A.， Kalchbrenner, N.和Kavukcuoglu, K.像素循环神经网络。在ICML, 2016年。

46.范恩格伦，J.和胡斯，H.半监督学习的调查。机器学习(2019), 1 - 68。

47.瓦普尼克，统计学习理论(1998)。

48.邻近风险最小化原则和支持向量机。T统计学习理论的本质。施普林格，2000,267-290。

49.Vincent, P.， Larochelle, H.， Bengio, Y.和Manzagol, P.用去噪自编码器提取和合成鲁棒特征。ICML 08年。

50.Vinyals, O.， Blundell, C.， Lillicrap, T.， Wierstra, D.等。为一次性学习匹配网络。神经信息处理系统研究进展(2016), 3630 - 3638。

51.Visotsky, R.， Atzmon, Y.和Chechik, G.用每个样本丰富监督的少镜头学习。2019;arXiv: 1906.03859(2019)。

52.冯·安，L.和达比什，L.用电脑游戏给图像贴标签。在2004 SIGCHI会议论文集。计算系统中的人为因素, 319 - 326。

53.王敏和。弱监督学习的跨语言投影期望正则化。反式。Assoc。计算语言学255 - 66 (2014);https://doi.org/10.1162/tacl_a_00165

54.王欣，彭燕，吕亮，吕震，Bagheri, M.， Summers, R. chest -ray8:医院规模的胸片数据库和常见胸病弱监督分类和定位的基准。在2017年IEEE会议论文集。计算机视觉与模式识别, 2097 - 2106。

55.韦斯特，R.和霍维茨，E.逆向工程讽刺，或“尽管取得了重大进展，但人们还是接受了计算幽默的论文”。在2019年AAAI会议论文集。人工智能, 7265 - 7272。

56.肖金，Z.半监督学习文献综述。计算机科学TR 1530(2008)。

57.zrecki, J.和Markovitch, S.文本成员查询。在29届会议记录^th实习生。相依的实习生。人工智能联合会议， 2021, 2662-2668。

58.W. zarenmba和I. Sutskever正在学习执行。2014;arXiv: 1410.4615。

59.张，H.， Cissé， M.， Dauphin, Y.，和Lopez-Paz, D.混合:超越经验风险最小化。2017;arXiv abs / 1710.09412。

60.朱军，张晓明，张晓明。生成式对抗主动学习。2017;arXiv abs / 1702.07956。

回到顶部

作者

陈沙尼他是以色列耶路撒冷希伯来大学的博士生。

乔纳森Zarecki是以色列特拉维夫市以色列军事情报部门的研发小组负责人。

莱米Shahaf他是以色列耶路撒冷希伯来大学的数据科学副教授。

回到顶部

脚注

一个。https://www.nobelprize.org/uploads/2018/06/hubel-lecture.pdf

更多在线信息:本文的一个版本包含了全面的参考文献列表https://dx.doi.org/10.1145.3551635

本论文部分或全部的电子版或硬拷贝供个人或课堂使用的许可是免费的，前提是副本不是为了盈利或商业利益而制作或分发的，并且副本的第一页上必须有本通知和完整的引用。除ACM外，本作品的其他组件的版权必须受到尊重。允许有署名的摘要。以其他方式复制，重新发布，在服务器上发布，或重新分发到列表，需要事先特定的许可和/或费用。请求发布权限permissions@acm.org或传真(212)869-0481。

没有找到条目

精益数据科学家:克服数据瓶颈的最新进展

关键的见解

分类

障碍:缺少数据

障碍:缺少标签

结论

参考文献

作者

脚注

文章内容:

人工智能能证明创造力吗?

人工智能现在是必不可少的国家基础设施

当你怀孕的时候会期待什么?GPT-4