acm-header
登录

ACM通信

研究突出了

技术视角:WINOGRANDE的重要性


大象,一个篮球,和一扇打开的门

信贷:宇宙的日志

在一项测试中表现出色通常并不意味着在该测试旨在衡量的技能上表现出色。这不仅适用于人类,也适用于人工智能系统,而且越是如此,这项测试的重要性就越明显。

这在Winograd模式挑战(WSC)引入不到十年后变得明显起来,3.这是一项通过回答简单问题来衡量人工智能系统的常识推理能力的测试。一个例子是,给定信息:雕塑从架子上滚了下来,因为它没有固定住回答:什么不是固定的吗?

有多种人工智能系统2在WSC上实现了人的绩效,但没有能力履行企业社会责任。这似乎是一个很好的理由,让WSC退回到基准的垃圾堆,这些基准被征服后几乎没有什么收获。但AI2的Yejin Choi和她的同事们试图重新设计WSC,将其作为一个系统的企业社会责任能力的更有意义的基准。《WINOGRANDE》是Choi和她的团队探索数据集开发和对抗式过滤新方法的一系列开创性论文之一,旨在防止AI系统声称在没有取得真正进展的情况下打破基准。

为什么要修复WSC?为什么不简单地开发一个更适合衡量企业社会责任能力的新数据集?WSC的吸引力部分在于测试的极端简单性,部分在于成功所需要的条件。Levesque提出代词解析的常见任务——确定代词指向的是哪个实体——可以替代CSR能力和智力的测试。例如,考虑这样一个问题:安娜所做的更好的因为露西学习很努力,所以她考试成绩比露西好。谁努力学习?人们很容易推断出努力学习的人是安娜:我们知道努力学习通常会带来更好的成绩。但没有CSR能力的机器可能无法正确回答问题。

莱韦斯克试图通过收集来减少句子结构中对特定指称物的偏见几乎完全相同的句子。例如,上面的句子可以改写为:安娜所做的更糟糕的是因为露西学习很努力,所以她考试成绩比露西好。谁努力学习?在这种情况下,答案变了:努力学习的是露西。推理是相似的,但代入更糟糕的是更好的导致了一个不同的答案。这样的句子,命名Winograd模式,目的是消除这种结构性偏差的可能性。

在Winograd schema上实现接近人类的性能似乎超出了五年前人工智能系统的能力。但是通过使用像BERT这样的深度学习框架,1它结合了变压器架构、统计自然语言处理技术和大规模预先训练的语言模型,人工智能研究人员迅速开发出高性能系统——在WSC和其他基准上,例如,超级胶水6——而在更普遍的人工智能指标上几乎没有什么进展。4

如何修正WSC以防止对机器性能的过高估计?WINOGRANDE结合了两种紧密交织的策略:生成一个大语料库(原始WSC的一个缺点是发布的训练语料库太小)和过滤掉有偏见的的例子。WINOGRANDE语料库是由Mechanical Turkers (MTs)生成的,他们使用锚词和遵守约束来编写成对的句子。其他的MTs确保人们可以很容易地推断出这些句子中的代词指代物。然后使用过滤算法对语料库进行处理,只保留最小化的例子表示的偏见。删除的配对包括那些数据集特定的极性基础(例如,先进的攀岩与存在的联系更紧密强大的比被).结果得到了一个语料库(约44K个示例),2019年最佳系统的准确率为79.1%,大大低于人类水平。在缺乏真正推理能力的情况下,防止人工智能系统达到人类表现水平是一个理想的目标。

长期影响是什么?一年后,根据WINOGRANDE排行榜显示,Choi团队的独角兽解决WINOGRANDE问题的准确率达到了接近人类水平的91.28%。AI系统可能很快就会在人类层面上解决WINOGRANDE的问题,而不一定会在企业社会责任的基本任务上取得真正的进展。可以说,这表明解决WSC或WINOGRANDE都不代表企业社会责任能力。然而,WINOGRANDE的贡献远远超出了对特定数据集的性能。重要的是,本文介绍的方法是独立于WINOGRANDE数据集的。用于帮助MTs生成大规模语料库的方法也可以用于创建其他语料库。本文介绍的滤波算法可以进行修改,以更积极地滤除偏差和其他误差来源。无论人工智能系统是否过早地在研究人员目前针对的多个语料库中的任何一个上达到了人类水平,这些技术仍将是有用的。

回到顶部

参考文献

1.Devlin, J., Chang, M-W, Lee, K.和Toutanova, K. Bert:深度双向变形器的语言理解预训练,2018;arXiv: 1810.04805。

2.Kocijan, V., Lukasiewicz, T., Davis, E., Marcus, G.和Morgenstern, L.回顾Winograd Schema Challenge数据集和方法,2020;arXiv: 2004.13831。

3.Levesque, H., Davis, E.和Morgenstern, L. Winograd图式挑战。在13年的会议记录th实习生。确定知识表示和推理的原则, 2012年。

4.马库斯,g和戴维斯,E。重启人工智能:构建我们可以信任的人工智能。年份,2019年。

5.Nicholas, L., Le Bras, R., Bhagavatula, C.和Choi, Y. UNICORN谈RAINBOW:在新的多任务基准上的通用常识推理模型。AAAI, 2021年。

6.Wang, A.等。Superglue: 2019年通用语言理解系统的更有粘性的基准;arXiv: 1905.00537。

回到顶部

作者

Leora Morgenstern是美国加州帕洛阿尔托施乐公司PARC的首席科学家。

回到顶部

脚注

查看所附文件,请访问doi.acm.org/10.1145/3474381


版权归作者所有。
向所有者/作者请求(重新)发布许可

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc。


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
文章内容:
Baidu
map