acm-header
登录

ACM通信

研究突出了

WinoGrande:大规模的Winograd对抗模式挑战


大象无法通过敞开的门

常识推理仍然是人工智能领域的一个主要挑战,然而,最近在基准测试方面的进展似乎表明情况并非如此。特别是,最近的神经语言模型在Winograd模式挑战(WSC)中准确率超过90%,22这是一个常识性的基准测试,最初设计为仅依靠单词关联的统计模型无法解决。这就提出了一个重要的问题——这些模型是否真的获得了稳健的常识能力,或者它们依赖于数据集中的虚假偏差,导致对机器常识真正能力的过高估计。

为了研究这个问题,我们引入了WinoGrande,这是一个包含44k问题的大规模数据集,它的灵感来自最初的WSC,但经过了调整,以提高数据集的规模和硬度。数据集构建的关键步骤包括:(1)大规模的众包,然后(2)使用一种新的AFLITE算法系统地减少偏见,该算法可以推广人类可检测性联想词对machine-detectable嵌入关联。我们的实验表明,与人类(94%)相比,最先进的模型在WINOGRANDE上的准确性(59.4%-79.1%)要低得多,这证实了在原始WSC上的高性能被数据集中的虚假偏差夸大了。

此外,我们报告了五个相关基准的最新结果,并强调了它们的双重含义。一方面,它们证明了WINOGRANDE作为迁移学习资源的有效性。另一方面,在所有这些基准上的高性能表明假偏差在所有这些数据集中普遍存在的程度,这促使进一步的算法偏差减少研究。

回到顶部

1.简介

常识推理一直是人工智能领域一个长期存在的开放研究问题。5Winograd模式挑战(WSC),22作为图灵测试的替代方案,39已经被视为测试人工智能常识能力的典型基准。WSC被设计为代词解析问题(参见表1),这对人类来说是微不足道的,但对仅依靠统计模式(如没有真正常识理解的单词关联)的机器来说却很难。常识性推理的困难之一来自于语言上的“报告偏差”15;常识性知识往往太过明显,以至于人们无法在文本中明确表述,这可能会混淆依赖于语言统计模式的模型。

然而,神经语言模型的最新进展已经饱和了大多数主要的基准,例如WSC数据集的变体,其模型现在达到了90%左右的准确性。这就引出了一个奇怪的问题:

神经语言模型是否成功地获得了常识,还是我们高估了机器常识的真正能力?

这个关于潜在过高估计的问题引出了另一个关键问题,即大规模神经语言模型可能正在利用的潜在不必要的偏差,从根本上解决了问题正确的,但对于错误的的原因。事实上,尽管WSC问题是由专家精心设计的,但最近的研究表明,它们仍然容易出现偶然的偏差。Trichelair et al。36报道在先(13.5%的病例,见表1例如)以及其他类型的dataset-specific偏见。尽管这种偏差和注释工件对于单个实例来说并不明显,但它们会作为问题引入数据集,因为作者会下意识地重复类似的问题生成策略。

t1.jpg
表1。WSC问题被构造为对(称为双胞胎),题目几乎相同,有两个选项。

为了研究机器常识能力的真实估计问题,我们引入WinoGrande,这是一个包含44k问题的新数据集,其灵感来自WSC的原始设计,但经过修改以提高问题的规模和硬度。WINOGRANDE建设的关键步骤包括(1)精心设计的众包程序,然后(2)一种新颖的AFLITE算法,该算法基于机器可检测偏差的发生嵌入事件。我们的方法的主要动机是,人类很难在编写问题时不意外地插入不必要的偏差。

尽管人们觉得WINOGRANDE的问题微不足道,准确率高达94%,但最先进的结果,比如罗伯塔的结果,25根据所提供的训练数据量(从800到41k个实例),会显著降低(59.4%-79.1%)。此外,我们还证明,WINOGRANDE提供了向其他现有WSC和相关基准的转移学习,实现了新的最先进(SOTA)性能。

尽管SOTA在多个具有挑战性的基准上的改进令人兴奋,但我们谨慎地注意到,必须对这些积极的结果持保留态度。这一结果也可能表明,虚假效应在现有数据集中普遍存在的程度,这存在高估机器智能在常识推理方面的真实能力的风险。更一般地说,人工制作的问题和任务(无论它们是由群众提供的还是由专家提供的)在许多情况下都包含注释工件,而像AFLITE这样的算法偏差减少对于减轻这种特定于数据集的偏差是必不可少的。

我们的工作为衡量人工智能的进展提供了一个新的视角。而不是构建静态的基准数据集,并要求社区在其上工作数年,我们建议使用动态数据集与最先进的模型一起发展。

回到顶部

2.规模化众包Winogrande

由于双胞胎的结构限制和对语言知识的要求(表1).尽管如此,我们提出了一种有效的方法来创建WSC问题的大规模数据集(WINOGRANDE),同时保持其原始属性——即对人类来说微不足道,但对AI系统来说很难。我们的方法包括一个精心设计的众包任务,然后是一个新颖的对抗过滤算法(§3),该算法系统地消除了数据中的偏见。

提高群众的创造力。从零开始创造双胞胎句子会给群体工作者带来很高的认知负荷,因此他们会下意识地写出在词汇和文体上重复的成对句子。为了鼓励创造力,减少他们的认知负荷,我们雇佣了创造力的约束35一种心理学概念,认为适当的约束可以帮助构建和驱动创造力。在实践中,群体工作者会被随机选择的主题作为暗示性的背景(详见这里),尽管他们被要求遵循精心策划的数据结构的精确指导方针。

众包的任务。我们通过Amazon Mechanical Turk (AMT)上的众包收集WINOGRANDE的问题。要求工人写出双胞胎句子(如表1),满足WSC问题的要求(如避免单词联想、非零但编辑距离小)。为了避免重复同一个话题,工作人员被要求随机选择一个从随机分配的WikiHow文章的单词(s),并确保双胞胎句子包含词。的单词不一定是触发词,但我们保证它不是虚词如它,,的。在我们的试点实验中,我们发现这种约束极大地提高了员工的创造力和话题的多样性。此外,研究人员被要求将双胞胎句子的长度控制在15到30个单词之间,但要保持一对双胞胎之间至少70%的单词重叠。根据最初的WSC问题,我们旨在在两个不同的领域收集双胞胎——(i)社会常识:涉及两个具有不同属性、情感、社会角色等的同性人的情况;(ii)物理常识:涉及两个具有不同属性、用法、位置等的物理对象的环境。我们总共收集了77k个问题(即38k个双胞胎)。

数据验证。我们通过三组不同的人群工作者来验证每个收集到的问题。经过严格的程序,如果(1)三个工作人员中的大多数选择了正确的答案选项,(2)他们同意两个答案选项是明确的(一个选项显然比另一个更合理),以及(3)问题不能简单地通过目标代词周围的当地上下文(例如,“因为”)的单词联想来回答走得太快了。”(赛车/校车))。结果,68%的问题(53k)被认为是有效的,我们丢弃了无效的问题。

尽管我们的众包过程解决了一些实例级偏差,如单词关联,但构建的数据集仍然有可能存在偏差dataset-specific偏见,尤其是在它被放大之后。为了应对这一挑战,我们提出了一种系统减少偏差的方法。

回到顶部

3.算法数据偏差减少

最近的一些研究1629382712有没有报告存在注释工件在大规模数据集。注释构件是数据中的无意模式,它以不希望的方式泄漏有关目标标签的信息。最先进的神经模型在利用这些人工制品来解决问题时非常有效正确,但对于不正确的的原因。为了解决数据集偏差带来的持久挑战,我们提出了aflite——一种新的算法,它可以使用最先进的单词上下文表示系统地减少偏差。

轻量级的敌对的过滤。我们的方法建立在Zellers等人提出的对抗滤波(AF)算法的基础上,41但是有两个关键的改进:(1)AFLITE的适用范围更广(不需要生成过多的数据实例)(2)它相当轻量(不需要在AF的每次迭代中重新训练一个模型)。从语言模型中过度生成用于测试实例的机器文本会带来分布偏差的风险,在这种情况下,鉴别器可以学会区分机器生成的实例和人工生成的实例。此外,AF依赖于每次迭代训练一个模型,当与BERT等模型对抗时,会产生极高的计算成本。7

我们采用实例的密集表示,而不是手动标识的词汇特征预计算神经网络嵌入的。在这项工作中,我们使用RoBERTa25对数据集的一小部分进行了微调。具体来说,我们使用数据集(总共包含53k个实例)中的6k个实例(5k用于训练,1k用于验证)来优化RoBERTa(称为RoBERTa)嵌入).我们用罗伯塔嵌入预先计算其余实例(47k)的嵌入作为AFLITE的输入。我们丢弃最终数据集中的6k个实例。

接下来,我们使用对数据的随机子集进行训练的线性分类器(逻辑回归)的集合,以确定RoBERTa中是否使用的表示嵌入是正确答案选项的重要标志。如果是,则丢弃相应的实例并迭代进行。

图1给出了AFLITE算法的一个例子。算法以的为输入预计算嵌入和标签,以及大小n训练的规模对于集合中的分类器,滤波截止的大小和滤波阈值τ。在每个过滤阶段,我们进行训练n线性分类器在数据的不同随机分区上,我们收集它们在相应的验证集上的预测。对于每个实例,我们计算its分数即正确预测次数与总预测次数之比。我们根据它们的分数对实例进行排名,并删除最前面的-k得分高于阈值τ的实例。我们重复这个过程,直到去掉少于k实例在筛选阶段或小于剩余的实例。当将AFLITE应用于WINOGRANDE时,我们设置= 10000,n= 64,k= 500, τ = 0.75。

f1.jpg
图1。AfLite算法的插图。它将每个实例的预计算表示作为输入(例如,BERT嵌入)。在数据的不同随机分区上训练线性分类器的集合,并用于计算每个实例的可预测性得分。该算法过滤掉得分最高的实例,并迭代进行到下一个过滤阶段。

这种方法也让人想起最近NLP在对抗性学习方面的工作。3.19Belinkov et al。1提出了一种针对NLI的对抗删除技术,该技术鼓励模型学习不存在仅假设偏差的表示。然而,在提出一个新的基准时,我们不能强制任何未来的模型都有目的地避免学习数据中的虚假相关性。此外,尽管仅假设偏倚在NLI中是一种深刻的偏倚,但我们对WINOGRANDE中可能的偏倚来源不做任何假设。相反,我们采用一种更积极主动的减少偏差的形式,依靠最先进的(统计)方法来发现不需要的数据集捷径。

AfLite评估。我们评估了AFLITE相对于两个基线的影响:随机数据约简和点互信息(PMI)过滤。在随机数据缩减中,我们对数据集进行随机次抽样,以评估数据集大小的减少如何影响偏差。在PMI筛选中,我们计算差异(f)的采购经理人指数(t)如下:

ueq01.gif

从技术上讲,我们首先预先计算单词和标签之间的PMIy= 1为数据集中的每个单词,遵循Gururangan等人提出的方法。16给定句子中每个令牌的PMI值之和表示标签的可能性y= 1表示句子。我们只保留PMI值相差很小的双胞胎,因为它对应的是难以区分的双胞胎。

图2RoBERTa预先计算的嵌入,其维数被简化为2D ()及身份证()使用主成分分析(PCA)。我们观察到WINO-GRANDE所有两个基线在两个正确答案选项之间显示出不同的组成部分(即,y∈1,2),而在WINO-GRANDE中这种区别变得不那么明显debiased,这意味着AFLITE成功地减少了数据集中(实例和标签之间)的虚假相关性。为了量化效果,我们计算了有答案选项的样本之间的KL散度。我们发现随机数据约简并没有降低KL散度(2.53→2.51)。有趣的是,pmi滤波略微减少了KL发散(→2.42),尽管对pmi滤波子集的主成分分析仍然导致标签之间的显著分离。另一方面,在WINOGRANDEdebiased, AFLITE显著降低了KL发散度(→0.12),这表明这种去偏数据集对仅依赖虚假相关的统计模型具有挑战性。

f2.jpg
图2。AfLite的去偏效果。RoBERTa预计算嵌入(应用PCA降维)显示在二维空间(上面一行)和直方图d1底下一行),垃圾桶大小为100。数据点的颜色取决于标签(即答案)y选项1(蓝色)或选项2(红色))。在直方图中,我们显示了之间的kl散度pd1y= 1),d1y= 2)。

AfLite实际上检测到了什么偏差?根据WSC最初的目标,这种偏见真的是虚假的和不受欢迎的吗?表2给出了AFLITE检测到的数据集特定偏差的例子。我们在前两个双胞胎中看到了一个结构模式,即回答选项和目标代词之间的情感高度相关。换句话说,这些问题可以通过简单地利用极性的模式(正的或负的)来轻松地解决。重要的是,这种特定于数据集的偏差是结构性的,而不是标记级别的,这与NLI文献中已经确定的偏差形成了对比,1629使用词汇pmi筛选等启发式方法很难检测到这些偏差。AFLITE不依赖这种启发式方法,而是能够通过算法检测出可能存在这种偏差的样本。

t2.jpg
表2。的例子,dataset-specificAfLite检测的偏倚(标有x).

在应用AFLITE算法后,我们得到一个debiased12,282个实例集,分为训练集(9,248)、开发集(1,267)和测试集(1,767)。我们还发布了31k个被AFLITE过滤掉的问题,用于额外的训练集(§4)和资源(§5),导致WINOGRANDE的问题总数所有43,432人(40,398人用于培训,1,267人用于开发,1,767人用于测试)。

WinoGrande对阵原始WSC。尽管WINOGRANDE的灵感来自于原始的WSC,但我们做了一些偏离WSC原始设计准则的设计选择,以便在保证数据集硬度的同时大幅扩大数据集的规模。

首先,WINOGRANDE被格式化为一个填空问题,其中空白对应于上下文中提到的两个名称中的一个,遵循其他近期WSC变体(如Trinh和Le)所做的相同修改。37相比之下,原来的WSC显式地放置了一个代词(而不是空白)。从建模的角度来看,使用空白代替显式代词并不能使问题变得更容易。

第二,虽然我们最初收集了双胞胎的所有问题,但最终的问题在过滤后的WINOGRANDE中debiased并不总是双胞胎,因为AFLITE有可能只过滤掉双胞胎中的一个句子。在WINOGRANDEdebiased在美国,大约1/3的问题不是双胞胎。我们还推出了WINOGRANDE所有(训练集)全部由双胞胎组成。

第三,与最初由少数语言学专家撰写的WSC问题不同,WINOGRANDE是由众工撰写的。因此,WINOGRANDE使用的语言反映了人群使用的更加多样化和嘈杂的语言。重要的是,外行仍然发现WINOGRANDE的问题很容易解决,准确率高达94%(§4)。

回到顶部

4.实验结果

*4.1.基线模型

我们评估WINOGRANDEdebiased(开发和测试)在原始WSC上有效的方法/模型。

酒鬼知识打猎。Wino知识狩猎(WKH)由Emami等人。10基于一种信息检索方法,在这种方法中,句子被解析为一组查询,然后模型从搜索结果片段中为每个候选答案查找证据。

神经LMs合奏。陈和勒37是应用神经语言模型的首次尝试之一,该模型在非常大的语料库(如lm - 10 - billion、CommonCrawl、SQuAD和Gutenberg Books)上进行了预先训练。在这种方法中,任务被视为带有二元选择的填空问题。句子中的目标代词被每个答案候选词替换,神经语言模型提供两个结果句子的似然。这种简单而有效的方法优于以前的基于ir的方法。

伯特。伯特7是另一种预先训练的神经语言模型,它具有双向路径和隐含层中连续的句子表示。我们对BERT进行微调,使用候选答案作为分隔符,将输入句子分割为上下文和选项。输入格式变为[CLS] context [SEP] option [SEP];例如,这个奖杯装不进这个棕色的手提箱里,因为_____[9]太大。[9](空白_____由选项1或选项2填充),并且使用[CLS]令牌嵌入来对哪个答案选项是正确的进行分类。我们使用网格搜索进行超参数调优:学习率{1e3 - 5,e5 - 5,e- 5},带有三个不同随机种子的纪元数{3,4,5,8}和批大小{8,16}。

罗伯塔。罗伯塔25是BERT的改进变体,它添加了更多的训练数据,具有更大的批处理规模和训练时间,以及其他改进,如动态屏蔽。在许多基准测试数据集中,RoBERTa的性能始终优于BERT。

单词联想基线。使用BERT和RoBERTa,我们还运行单词association baseline (local-context-only),以检验该数据集是否可以通过基于语言的偏差来求解。在此基线中,模型只使用局部上下文进行训练(Wt2: EOS)围绕待填空白(Wt)(例如,因为_____[9]太大。[9]).这类似于假设只有在NLI的基线,29其中任务(数据集)不需要完整的上下文来实现高性能。

对DPR数据集进行微调。确定代词分辨率(DPR)数据集,Rahman和Ng收集,31由30名本科生编写的1886道WSC风格的问题组成。Kocijan et al。19最近表明,BERT与DPR的微调提高了WCS的性能(72.2%的准确率)。作为附加基线,我们用DPR对BERT和RoBERTa进行微调,并对WINO-GRANDE进行评估。这使得我们可以从经验上比较WSC和WINOGRANDE的难度。

人类的评价。除了上面描述的方法,我们计算人类的表现为三个群体工作者对每个问题的多数投票。

*4.2.结果

表3显示了结果。两个基线,WKH和Ensemble lm,只实现机会级别的性能(50%)。最佳模型RoBERTa达到79.1%的测试集精度,而人类性能达到94.0%,表明WINOGRANDEdebiased仍然很容易让人类按自己的意愿回答。关于单词关联(即本地上下文)基线,BERT和RoBERTa都实现了接近机会级别的性能,说明大多数WINOGRANDEdebiased问题不能只根据当地的情况来回答。最后,BERT和RoBERTa对DPR进行微调,使准确率达到60%以下的机会水平,这与WSC的性能提升形成对比(BERT (Kocijan等人)的72%。19)和83%的RoBERTa)和其他现有的wsc风格的问题(如§5.3所示)。这表明WINOGRANDEdebiased包含比WSC和现有变体更具有挑战性的问题。

t3.jpg
表3。WinoGrande上几种基线系统的性能debiased(开发和测试)。

学习曲线。为了观察训练规模的影响,表4展示了罗伯塔在不同训练规模的160k到40k问题上的训练表现。图3展示了WINOGRANDE上最好的模型RoBERTa的学习曲线debiased开发集。当训练数据的大小从800(2%的训练数据)到41K(100%的训练数据)实例变化时,RoBERTa的性能范围从59%到79%。为了达到人类水平的性能,目前最先进的模型将需要超过118K个训练实例。

t4.jpg
表4。RoBERTa在不同训练规模下的表现。

f3.jpg
图3。Wino-Grande开发的学习曲线。图上的每个点都是给定数量的随机选择的训练示例的最佳性能,该训练示例由10个随机种子计算。

重要的是,学习曲线中可用的训练数据(~800)的低端大致与WSC以前的变体中可用的训练数据的大小相匹配表5).对于这些数据集中的大多数,最先进的状态已经达到90%左右(§5)。相比之下,当我们控制WINOGRANDE中的训练集大小时,RoBERTa的性能要低得多(59%),这表明我们的数据集构建方法能够组合比以前的数据集更难的WSC问题。

t5.jpg
表5所示。WSC和相关数据集的统计(§5.1)。

回到顶部

5.从Winogrande转移学习

WINOGRANDE包含大量WSC风格的问题。除了作为基准数据集之外,我们还使用WINOGRANDE作为资源——我们首先对数据集上的模型进行微调,并在相关数据集(WSC、PDP、SuperGLUE-WSC、DPR、KnowRef、KnowRef和Winogender)上评估其性能,从而应用迁移学习。我们在这些现有的基准数据集中建立了最先进的结果。

*5.1.现有的WSC和相关数据集

我们简要描述了现有的WSC变体和其他相关数据集。表5提供它们的汇总统计信息。

WSC。22这是最初的Winograd模式挑战数据集,由273个问题组成。这些问题是由作者手工制作的,以尽可能避免单词联想偏差,尽管Trichelair等。36后来的报告称,13.5%的问题可能仍然存在单词联想偏差。

PDP。26代词消歧问题(PDP)数据集与最初的WSC密切相关,并用于2016年的Winograd模式挑战。该数据集包含80个代词消歧问题。它被表述为多项选择任务,其中一个代词必须解析为最多5个(但大多数是二进制)可能的先行词之一。

SuperGLUE-WSC。40SuperGLUE包含多个数据集,例如WSC的修改版本,我们将其称为SuperGLUE-WSC。这个数据集聚集了原始的WSC、PDP和其他PDP风格的示例,并将它们重铸为True/False二进制问题(例如,“Pete嫉妒马丁因为是非常成功的。”问:马丁?答:真正的)。问题的数量大约是WSC和PDP的两倍,尽管规模仍然相对较小(总共804个)。我们将WinoGrande转化为真/假二元问题。

呀。31确定代词解析数据集(DPR)引入了由30名本科生撰写的1886个额外的WSC问题。Trichelair et al。36指出,由于基于语言或特定于数据集的偏见的增加,该数据集总体上比原始WSC更具挑战性。我们将最初的训练集(1332)分成了训练集(1200)和开发集(122),DPR并没有对此进行官方的拆分。

KnowRef。11KnowRef提供了超过8k个wsc风格的协同引用解析问题,使用启发式规则从1亿个web句子(Reddit, Wikipedia和open字幕)中提取和过滤。我们报告的结果是公开的测验组(1.2 k)的问题。

国王杯。32这个数据集介绍了1000个问题,旨在测试关注脚本知识的常识推理,表述为关于的二元选择原因而且影响给定的前提。因为COPA不提供训练集,我们将原始的开发集(500)分成训练集(400)和开发集(100),方法与SuperGLUE-COPA相同。40

Winogender。33本数据集介绍了720个问题,重点关注与人相关的代词解析,具有测量共参考解析系统中的性别偏见的明确目标。

*5.2.实验装置

我们的模型是基于RoBERTa与WINOGRANDE的微调(训练和开发集)。为了比较作为资源使用的不同语料库,我们还在DPR(训练集和测试集)上对RoBERTa进行了微调。对于超参数搜索,我们使用与§4相同的网格搜索策略。

额外的人力评估。我们还报告了WSC、PDP和DPR的人员表现,以校准我们的人群工作者池的质量,并支持之前的发现。据我们所知,这是第一个在DPR数据集上报告人类表现的工作。

*5.3.实验结果

表6而且7展示了将WINOGRANDE的迁移学习应用到其他WSC变体的结果。总体而言,对WINOGRANDE进行微调的RoBERTa有助于提高所有相关任务的准确性(表6),并始终比在DPR上进行微调时表现更好。

t6.jpg
表6所示。现有wsc相关任务(测试集)的准确性(%)。

t7.jpg
表7所示。Winogender数据集的准确性(%)和性别偏见。

尽管对一些相关数据集(特别是WSC、PDP和DPR)的改进似乎是意料之中的,但对COPA的显著改进却并非如此。COPA任务——确定原因和结果——与WINOGRANDE的任务非常不同。这一不相关任务的显著改进表明WINOGRANDE可以作为常识性知识转移的资源。

重要的影响。我们认为,尽管这些积极的结果在多个具有挑战性的基准之上是非常令人鼓舞的,但它们可能需要持保留态度。特别是,这些结果可能还表明,虚假的数据集偏差在现有数据集中普遍存在的程度,这存在高估机器智能在常识推理方面的真实能力的风险。

我们的结果和分析表明,继续研究消除偏差基准的重要性,以及对系统偏差减少算法方法的日益增长的需求,这允许基准随着技术的发展而发展。我们把它留给未来的研究问题,以进一步调查我们的改进有多少是由于现有基准的数据集偏差,而不是在提高常识智能方面的真正进步。

*5.4.性别偏见诊断

Winogender被设计为诊断工具,用于检查模型(和/或训练语料库)是否存在性别偏见。这种偏见是由代词性别与职业主流性别(称为“non-gotcha”)和不匹配(称为“gotcha”)的情况的准确性差异来衡量的。形式上,它的计算方法如下:

ueq02.gif

分别适用于女性及男性个案。

Δ的大值F或Δ表明模型是高度性别偏见,而|ΔF| = |Δ| = 0(具有较高的精度)是理想的场景。另外,如果ΔF或Δ在很大程度上是,这就意味着该模型在另一方面是有偏见的。

性别偏见诊断的结果显示在表7.虽然我们发现在WINOGRANDE和DPR上微调的RoBERTa模型都具有很高的准确性,但在RoBERTa- WINOGRANDE上的性别差距小于RoBERTa-DPR。

回到顶部

6.结论

我们介绍了WINOGRANDE,这是一个44k WSC启发问题的新集合,它比WSC数据集的现有变体大得多。为了创建一个抗伪数据集特定偏差的健壮数据集,我们还提出了aflite -一种新的轻量级对抗过滤算法,用于系统偏差减少。生成的数据集对于现有的最先进的模型来说相当具有挑战性,但对人类来说仍然非常简单。此外,利用WINOGRANDE作为资源,我们展示了有效的迁移学习,并在几个相关基准上取得了最先进的结果。

与此同时,我们还强调了在现有常识基准上高估最先进方法性能的潜在风险;这些模型也许能解决问题正确的错误的原因是依赖虚假的统计模式(注释构件)。

我们的工作为设计衡量人工智能进展的基准提供了一个新的视角。不像过去几十年,社区建造了一个静态我们现在需要AI算法来组成对AI来说足够困难的挑战,这就需要动态随着先进技术的发展而发展的数据集。

回到顶部

致谢

我们感谢匿名审稿人Dan Weld、Noah Smith、Luke Zettlemoyer、Hannaneh Hajishirzi、Oren Etzioni、Leora Morgenstern、Ernest Davis、Gary Marcus和Yuling Gu,感谢他们深思熟虑的反馈。该研究部分由美国国家科学基金会(NSF) (iss -1524371, iss -1714566)支持,DARPA通过ARO (W911NF-15-1-0543)支持CwC项目,DARPA通过NIWC太平洋(N66001-19-2-4031)支持MCS项目。

回到顶部

参考文献

1.Y. Belinkov, Poliak, A. Shieber, S. Van Durme, B., Rush, A.自然语言推理中仅假设偏差的对抗性去除。扫描电镜(2019), 256 - 262。

2.为winograd模式挑战建立人类基线。MAICS(2015), 30 - 45。

3.陈晓燕,陈晓燕。基于多域文本分类的多项对抗网络。NAACL(2018), 1226 - 1240。

4.Clark, K, Manning, C.D.提及排序协同参考模型的深度强化学习。EMNLP(2016), 2256 - 2262。

5.戴维斯,E,马库斯,G.人工智能中的常识推理和常识知识。Commun。ACM 58(2015年8月),92-103。

6.E. Davis, Morgenstern, L., Ortiz, C. winograd模式挑战材料的人体测试未发表手稿(2016)。https://cs.nyu.edu/faculty/davise/papers/WS2016SubjectTests.pdf, 2016年。

7.德夫林,张,m - w。,Lee, K., Toutanova, K. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805 (2018).

8.杜雷特,G.克莱因,D.在共同参考分辨率中容易的胜利和艰难的战斗。EMNLP(2013), 1971 - 1982。

9.Elazar, Y, Goldberg, Y.从文本数据中对抗性去除人口统计学属性。EMNLP乳(2018)。

10.Emami, A. Trischler, K. Suleman,张,J.C.K. winograd模式挑战的广义知识搜索框架。NAACL: SRW(2018), 25-31。

11.Emami, A., Trichelair, P., Trischler, A., Suleman, K., Schulz, H.,张,J.C.KACL(2019), 3952 - 3961。

12.Geva, M, Goldberg, Y, Berant, j。我们是对任务建模还是对注释器建模?自然语言理解数据集中的注释者偏差研究。arXiv: 1908.07898(2019)。

13.A. Gordon, Kozareva, Z. Roemmele, M. SemEval-2012任务7:合理替代品的选择:对常识因果推理的评估。扫描电镜(2012), 394 - 398。

14.Gordon, a.s., Bejan, C.A, Sagae, K.使用数百万个人故事的常识性因果推理。AAAI(2011), 1180 - 1185。

15.Gordon J, van Durme, B.报告偏差与知识获取。AKBC(2013), 25 - 30。

16.Gururangan, S., Swayamdipta, S., Levy, O., Schwartz, R., Bowman, S., Smith, N.A.自然语言推理数据中的注释构件。NAACL(2018), 107 - 112。

17.何鹏,刘晓霞,陈伟,高杰。基于混合神经网络的常识推理模型。arXiv: 1907.11983(2019)。

18.Khashabi, D., Khot, T., Sabharwal, A., Tafjord, O., Clark, P., Hajishirzi, H. Unifiedqa:用单一qa系统跨越格式边界。arXiv预印本:2005.00700,(2020)。

19.Kocijan, V, Cretu, am - m。、Camburu O.-M。,Yordanov, Y., Lukasiewicz, T. A surprisingly robust trick for the winograd schema challenge.ACL(2019), 4837 - 4842。

20.Le Bras, R., Swayamdipta, S., Bhagavatula, C., Zellers, R., Peters, M., Sabharwal, A., Choi, Y.数据集偏差的对抗过滤器。ICML(2020)。

21.Lee, H., Peirsman, Y., Chang, A., Chambers, N., Surdeanu, M., Jurafsky, D. Stanford在CoNLL-2011共享任务中的多通筛共参考分辨系统。CoNLL:共享任务(2011)。

22.Levesque, h.j., Davis, E, Morgenstern, L. winograd模式挑战。在AAAI春季研讨会:常识推理的逻辑形式化(2011)。

23.林,研究所。,Yang, J.-H., Nogueira, R., Tsai, M.-F., Wang, C.-J., Lin, J. Tttttackling winogrande schemas. arXiv preprint arXiv:2003.08380 (2020).

24.刘强,蒋海华,凌志华,刘志强。,Zhu, X., Wei, S., Hu, Y. Commonsense knowledge enhanced embeddings for solving pronoun disambiguation problems in winograd schema challenge. arXiv:1611.04146 (2016).

25.Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, m.s., Chen, D., Levy, O., Lewis, M., Zettlemoyer, l.s., Stoyanov, V. Roberta:一种鲁棒优化的bert预训练方法。ArXiv、abs / 1907.11692(2019)。

26.L.摩根斯特恩,E.戴维斯,奥尔蒂斯,C. L.计划、执行和评估winograd模式挑战。人工智能杂志37, 1(2016), 50-54。

27.尼文,T,高,h - y。自然语言论点的神经网络理解探讨。ACL(2019), 4658 - 4664。

28.彭洪华,卡沙比,罗斯,李文华。求解难共参考问题。NAACL(2015), 809 - 819。

29.波利克,纳拉道斯基,哈尔达尔,鲁丁格,R,范杜梅,B.自然语言推理中的假设只是基线。扫描电镜(2018), 180 - 191。

30.Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I.语言模型是无监督的多任务学习者。OpenAI博客(2019), 777 - 789。

31.解决定代词的复杂情况:winograd模式挑战。EMNLP-CoNLL(2012)。

32.Roemmele, Bejan, C.A, Gordon, A.S.貌似合理的选择:对常识性因果推理的评估。在AAAI春季研讨会:常识推理的逻辑形式化(2011)。

33.Rudinger, R., Naradowsky, J., Leonard, B., Van Durme, B.共同参照决议中的性别偏见。NAACL(2018年),15 - 20。

34.佐佐木、高濑、井上、冈崎、井井、k。因果关系估计中多词表达式的处理。捕鲸委员会(2017)。

35.斯托克斯,下约束中的创造力:突破心理学。施普林格出版公司,纽约,纽约,2005年。

36.特里切莱尔,埃米,张,J.C.K,特里切勒,A.,苏莱曼,K.,迪亚兹,F.自然语言理解中常识推理的评价。arXiv: 1811.01778(2018)。

37.Trinh, T.H., Le, Q.V.常识推理的一种简单方法。arXiv: 1806.02847(2018)。

38.在识别文本蕴涵时,训练数据的隐藏偏差造成的性能影响。LREC(2018), 1506 - 1511。

39.图灵,点计算机和智能。介意59236(1950), 433 - 460。

40.Wang, A., Pruksachatkun, Y., Nangia, N., Singh, A., Michael, J., Hill, F., Levy, O., Bowman, S.R.强力胶:通用语言理解系统的粘性基准。arXiv: 1905.00537(2019)。

41.泽勒斯,比斯克,Y.,施瓦茨,R.,崔,Y.斯瓦格:基于常识推理的大规模对抗数据集。EMNLP(2018), 93 - 104。

回到顶部

作者

圭佑坂口keisukes@allenai.org),艾伦人工智能研究所,西雅图,华盛顿州,美国。

罗南Le胸罩ronanlb@allenai.org),艾伦人工智能研究所,西雅图,华盛顿州,美国。

(钱德拉Bhagavatulachandrab@allenai.org),艾伦人工智能研究所,西雅图,华盛顿州,美国。

Yejin崔yejin@cs.washington.edu),华盛顿大学艾伦人工智能研究所,西雅图,华盛顿州,美国。

回到顶部

脚注

本文的原始版本发表在34人会议记录th人工智能AAAI会议(2020年2月)。

工人达到AMT最低资格:合格率99%,合格率5k的批准。奖励是每两个句子0.4美元。

AfLite算法得到了进一步的发展。20.

AfLite是为过滤实例而设计的,这样得到的数据集就不那么有偏见,而原来的AF算法41设计用于“生成和修改”单个实例,例如通过创建更好的干扰。因此,AfLite和AF的目标不同,因此很难直接比较。

https://github.com/tensorflow/models/tree/master/research/lm_commonsense

当我们使用去偏训练集(9248)时,BERT和RoBERTa都只表现出机会水平的表现。

自本文最初发表以来,已经有了一些性能更高的更新,如Lin等。23和Khashabi等人。18它们依赖于具有更大参数和数据源的相似模型,这意味着模型比RoBERTa更好地检测注释工件。这表明我们需要动态数据集随着最先进的算法一起进化。


cacm_ccby.gif这部作品是根据法律授权的https://creativecommons.org/licenses/by/4.0/

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.


没有发现记录

Baidu
map