acm-header
登录

ACM通信

实践

混合机器学习和人类判断的影响


棋手准备一招,图解

来源:盖蒂图片社

回到顶部

1997年,IBM的“深蓝”软件在一系列六场比赛中击败了世界象棋冠军加里·卡斯帕罗夫。从那以后,其他程序在从《危险边缘》到围棋等游戏中击败了人类玩家。在输掉比赛后,卡斯帕罗夫在2005年决定在一场在线国际象棋比赛中测试人类+人工智能配对的成功程度。2他发现人类+人工智能的团队打败了单独的人类。更令人惊讶的是,他还发现“人类+人工智能”团队击败了单独的计算机,尽管机器的表现超过了人类。

研究人员解释这一现象时强调,人类和机器在智能的不同方面都有优势。9人类棋手在长期象棋策略方面表现出色,但在评估棋子的数百万种可能配置时表现糟糕。机器的情况正好相反。由于这些差异,将人和机器智能结合起来比各自单独工作产生更好的结果。人们还认为,这种人与机器之间的合作形式可能是缓解机器学习中的偏见问题的一种方法,这个问题最近几个月已经成为人们关注的焦点。12

我们决定用风险评估算法作为案例研究来研究这种人与机器之间的协作类型。特别地,我们研究了替代制裁的惩教罪犯管理分析(COMPAS)算法,这是一个著名的(也许是臭名昭著的)风险预测系统,以及它对人类关于风险的决策的影响。许多州法院使用COMPAS等算法来预测被告再犯的风险,这些结果为保释、量刑和假释决定提供依据。

先前关于风险评估算法的工作集中在它们的准确性和公平性上,但没有解决它们与作为最终仲裁员的人类决策者之间的相互作用。在2018年的一项研究中,Julia Dressel和Hany Farid比较了COMPAS软件和亚马逊土耳其机械工人的风险评估,发现算法和人类达到了相似的准确性和公平性水平。6这项研究标志着风险评估工具文献的一个重要转变,通过将人类受试者纳入算法的准确性和公平性的背景。然而,Dressel和Farid的研究分离了人类决策者和算法,而事实上,当前的模型表明,人类和算法将协同工作。

因此,我们的工作包括两个实验,首先探索了算法风险评估对人类决策的影响,并发现提供算法的预测不会显著影响人类对累犯的评估。然而,后续的实验证明,算法的风险评分就像锚一样,会引发认知偏差:如果我们改变算法做出的风险预测,参与者就会将自己的预测与算法的评分同化。

结果突出了现有的人在循环框架的潜在缺陷。一方面,当算法和人类做出非常相似的决策时,它们的协作不会取得更好的结果。另一方面,当算法失败时,人类可能无法弥补自己的错误。即使算法不正式做出决策,它们也会以严肃的方式锚定人类的决策。

回到顶部

实验一:人与算法的相似性,而不是互补性

第一个实验考察了COMPAS算法对人们对累犯风险的判断的影响。之所以使用COMPAS风险评分,是因为该系统有可用的数据,它在以前关于算法公平性的工作中被广泛使用,以及该系统在许多州的使用。

方法。实验采用1 × 3的受试者间设计,并进行以下处理:控制,参与者只能看到被告的简介;分数,参与者可以看到被告的简介和被告的COMPAS分数;而且免责声明,参与者可以看到被告的简介,被告的COMPAS分数,以及关于COMPAS算法的书面建议。

参与者评估了一系列被告档案,包括性别、种族、年龄、犯罪指控和犯罪历史等数据。这些档案描述了在佛罗里达州布劳沃德县被捕的真实人物,基于数据集的信息ProPublica用于其风险评估算法的分析。1虽然该数据集最初包含7214个条目,但本研究在对提交给参与者的40个简介进行抽样之前应用了以下过滤器:

  • 被告仅限于黑人和白人。之前关于COMPAS算法的准确性和公正性的工作将他们的分析局限于白人和黑人被告。3.46为了将本次实验的结果与之前的研究结果进行比较,本研究只考虑了被认定为非裔美国人(黑人)或白种人(白人)的被告子集。
  • 排除大麻罪。有趣的是,试点研究显示,参与者对大麻相关犯罪(如持有、购买和运输)感到困惑。在调查的自由回答部分,参与者发表了诸如“大麻在这里是完全合法的”这样的评论。为了避免在各个州对大麻的合法性产生混淆,这项研究排除了被指控犯有含有大麻的罪行的被告大麻。

从这个筛选过的数据集中,随机抽取了40名被告。我们生成了一个档案,其中包含样本中每个被告的人口统计数据、涉嫌犯罪、犯罪历史和算法风险评估等信息。对照治疗中的描述性段落采用以下格式,这是建立在Dressel和Farid的研究基础上的:6

被告是[种族][性别]年龄[年龄]。他们被指控犯有:[犯罪指控]。这种罪行被归类为[犯罪程度]。他们曾被判有[非青少年前科]前科。他们有[青少年重罪]青少年重罪指控和[青少年轻罪指控]青少年轻罪指控。

得分处理的说明段落增加了下列资料:

COMPAS是一种风险评估软件,它使用机器学习来预测被告在未来两年内是否会犯罪。被告的COMPAS风险评分为[评分号]:[评分级别]。

最后,免责声明处理中的描述性段落在COMPAS评分下提供了以下信息,这与威斯康星州最高法院推荐的语言相一致州v。鲁姆斯18

一些COMPAS风险评估分数的研究提出了问题,即他们是否不成比例地将少数族裔罪犯归类为再犯风险更高的人。

在看到每一份档案后,参与者被要求提供他们自己对被告的风险评估分数,并指出他们是否认为被告会在两年内再次犯罪。使用下拉菜单,他们回答了如图1

f1.jpg
图1所示。被告档案评分处理。

我们通过Qualtrics平台远程部署了这项任务,并通过Amazon Mechanical Turk招募了225名受访者,每个治疗组75人。所有工作人员都可以查看任务标题“预测犯罪”;任务描述“回答关于预测犯罪的调查”;以及与任务相关的关键词“调查、研究和刑事司法”。只有生活在美国的工人才能完成这项任务,而且他们只能做一次。在最初五人测试小组的试点研究中,完成调查平均需要15分钟。由于调查的长度和内容与德莱斯尔和法里德的相似,6我们采用了他们的奖励方案,完成任务的员工奖励1美元,如果受访者预测的总体准确率超过65%,就奖励2美元。这种支付结构激励参与者在整个任务过程中密切关注并提供最佳反应。617

结果。图2显示参与者在对照、评分和免责治疗中的平均准确性。误差条表示95%置信区间。结果表明,提供COMPAS评分并不显著影响人类对累犯预测的总体准确性。在本实验中,对照组(54.2%)预测的总体准确性与评分组(51.0%)无显著差异(p= 0.1460)。

f2.jpg
图2。治疗组的正确率。

关于COMPAS算法局限性的书面建议也没有显著影响人类对累犯预测的准确性。免责处理组的平均总体准确率为53.5%,评分条件组的平均总体准确率为51.0%;一个双边t-test表明这种差异没有统计学意义(p= 0.1492)。

在退出调查的任务块结束时,99%的参与者回答说,他们发现任务的说明很清楚,99%的人对任务感到满意。在他们的反馈中,参与者表示他们对这项研究有积极的体验,留下这样的评论:“我非常喜欢这项任务;”“工作时间很长,报酬也不错。”和“干得很好。”

当被问及如何考虑COMPAS评分时,参与者没有提及这一建议。相反,他们的回答表明,他们以不同的方式使用COMPAS分数:一些人忽略了它们,一些人严重依赖它们,一些人把它们作为起点,而另一些人把它们作为验证的来源。

图3有参与者回答的节选和对自由回答问题的回答的摘要:您是如何将COMPAS风险评分纳入您的决策的?

f3.jpg
图3。参与者对自由回答问题的回答。

讨论。在评估被告再犯风险时,COMPAS算法的准确率明显高于评估被告档案的参与者(65.0% vs. 54.2%)。然而,这个实验的结果表明,仅仅为人类提供在准确性方面优于他们的算法并不一定会带来更好的结果。当参与者将算法的风险评分纳入他们的决策过程时,他们预测的准确率没有显著变化。在算法中包含一份提供潜在偏见信息的书面建议,也没有影响参与者的准确性。

鉴于互补计算的研究表明,人机智能耦合可以提高它们的性能,2911这一发现似乎违反直觉。然而,人与机器合作的成功案例是在人与机器表现出不同优势的情况下发生的。Dressel和Farid的研究证明了土耳其机械工人对再犯的预测与COMPAS算法之间惊人的相似。6这种相似性可能排除了相辅相成的可能性。我们的研究加强了这种相似性,表明人与算法的结合比单独的算法略差(尽管在统计上不显著),与单独的人相似。

此外,本研究表明,当包含COMPAS算法的适当用法的书面建议时,参与者预测累犯的准确性没有显著变化。威斯康辛州最高法院(Wisconsin Supreme Court)在没有表明该建议对官员决策的影响受到检验的情况下,授权将其列入建议。11心理学研究和调查设计文献表明,人们经常忽略此类免责声明,因此它们没有达到预期的目的。10与这些理论相一致的是,这里的结果表明,伴随算法输出的书面建议可能不会显著影响决策的准确性。

回到顶部

实验二:作为锚的算法

第一个实验表明COMPAS风险评分不会影响人类的风险评估,但心理学研究表明,算法预测可能会通过一种被称为锚定效应:当个体将他们的估计同化到先前考虑的标准时。Amos Tversky和Daniel Kahneman在1974年的一篇综合性论文中首次提出了锚定启发式理论,解释了锚定效应的心理学基础,并通过大量实验为这一现象提供了证据。19例如,在一个实验中,参与者旋转一个轮盘赌轮,该轮盘被预先设定在10(低锚)或65(高锚)处停止。在转盘后,与会者估计了非洲国家在联合国的百分比。Tversky和Kahneman发现,旋转10的参与者提供了平均25%的猜测,而旋转65的参与者提供了平均45%的猜测。他们解释说,人们从一个初始值开始进行估计,他们对这个量的调整通常是不够的,从而使这些结果合理化。

虽然研究锚定效应的最初实验招募了业余参与者,19研究人员还在专家中观察到类似的锚定效应。在1987年的一项开创性研究中,格雷戈里·诺斯克拉夫特(Gregory Northcraft)和玛格丽特·尼尔(Margaret Neale)招募了一些房地产中介,让他们拜访一户家庭,查阅一本详细的小册子,里面包含了有关该房产的信息,然后评估该房子的价值。16研究人员在小册子中列出了一组人的低要价(低锚)和另一组人的高要价(高锚)。看到高要价的经纪人提供的估值比看到低要价的经纪人高出41%,挂牌价格的锚定指数同样为41%。Northcraft和Neale在没有房地产经验的商学院学生中进行了相同的实验,观察到类似的结果:高锚处理的学生回答的估值比低锚处理的学生高出48%,挂牌价格的锚定指数也为48%。因此,他们的研究结果表明,上市价格等因素同样会使受过训练的专业人士和缺乏经验的个人的决策产生偏见。


即使算法不正式做出决策,它们也会以严肃的方式锚定人类的决策。


最近的研究发现了在刑事司法系统中锚定效应的证据。2006年,Birte Englich、Thomas Mussweiler和Fritz Strack进行了一项研究,在这项研究中,法官扔了一对骰子,然后给一个被判入店行偷的人判了徒刑。7研究人员操纵了骰子,让一半的参与者落在一个低数字(低锚)上,另一半的参与者落在一个高数字(高锚)上。摇出数字较低的法官平均刑期为5个月,而摇出数字较高的法官平均刑期为8个月。反应差异有统计学意义,骰子滚动的锚定指数为67%。事实上,类似的研究表明,量刑要求,7运动驳回,13和损害帽15同时,也充当了影响法官决策的锚。

方法。因此,第二个实验试图调查算法风险评分是否通过充当锚点来影响人类决策。该实验采用1 × 2的受试者间设计,其中两种处理如下:低分,参与者观看带有低风险评分的被告简介;高分数,即参与者在观看被告的档案时,会附上一个高风险分数。

低分和高分治疗在原COMPAS评分的基础上按以下公式分配风险评分:

低分=满分(0,COMPAS - 3)

高分= min(10,COMPAS + 3)

这个新实验与之前的实验相似:参与者评估同样的40名被告,满足同样的要求,并获得同样的报酬。该研究还采用了Qualtrics平台上的格式。

结果。图4显示分配给被告的参与者与被告档案中提供的在低分和高分处理中的参与者的平均得分。误差条表示95%置信区间。参与者给被告分配的分数与他们在被告资料描述中看到的分数高度相关。因此,在评估同一组被告时,低得分组的参与者提供的风险得分平均比高得分组的参与者低42.3%。低评分组受试者的平均风险得分为3.88 (95% CI 3.394.36),高评分组受试者的平均风险得分为5.96 (95% CI 5.366.56)。一个双边t-test显示这种差异具有统计学意义(p< 0.0001)。

f4.jpg
图4。按治疗的平均风险评分。

在调查结束时,当参与者反思COMPAS算法在他们决策中的作用时,他们指出了共同的主题,例如使用算法的得分作为起点和作为对自己决策的验证。的表图5总结这些参与者的意见,他们的治疗组和算法的作用在他们的决策。

f5.jpg
图5。按处理组和算法角色的响应。

讨论。这项研究的结果表明,算法风险预测作为锚,使人类的决策偏向。低得分组的参与者提供了3.88分的平均风险得分,而高得分组的参与者分配了5.96分的平均风险得分。40名被告的平均锚定指数为56.71%。这种锚定测量与之前心理学文献中的发现相呼应。81416例如,一项研究通过要求参与者猜测最高的红木树的高度来调查估算中的锚定偏差。14研究人员给其中一组提供180英尺的低锚,给另一组提供1200英尺的高锚,他们观察到锚定指数为55%。学者们观察到锚定指数在概率估计、19采购决策,20.和销售预测。5

尽管这种类型的认知偏差发生在几乎没有受过刑事司法系统训练的参与者中,但之前的研究表明,在特定领域的非专家和专家之间,锚定效应差别很小。诺斯克拉夫特和尼尔发现,房屋要价同样影响了房地产经纪人和没有房地产经验的人。16因此,这项研究表明,算法风险评估在法官、保释官和假释官之间的锚定效应将反映本实验的参与者。大量先前的研究表明,事实上,这些官员容易受到诸如锚定等认知偏见的影响。715

重要的是,这些发现也突出了现有框架在解决机器偏见方面的问题。例如,许多研究人员主张让一个“人参与其中”,以监督的身份行事,他们声称这一措施将提高准确性,并在风险评估的背景下,“确保一个句子是公正和合理的。”12然而,即使当人类做出最终决定时,机器学习模型也会通过锚定这些决定来施加影响。算法的输出仍然决定着被告的最终待遇。

通过这种类型的认知偏差,算法的微妙影响可能扩展到其他领域,如金融、招聘和医学。毫无疑问,未来的工作应该专注于人类和机器的合作潜力,以及促进算法公平的步骤。但在制定解决机器学习模型缺陷的措施时,这项工作必须考虑到人类的易感性。

回到顶部

结论

这里使用COMPAS算法作为案例研究,以调查算法风险评估在人类决策中的作用。之前关于COMPAS算法和类似风险评估工具的工作主要集中在工具的技术方面,提出了提高其准确性的方法,并建立了评估其预测公平性的理论框架。该研究没有考虑算法作为决策辅助的实际功能,而是作为决策者。

基于现有文献的理论发现,一些政策制定者和软件工程师认为,COMPAS软件等算法风险评估可以通过告知和改进有关警务、治疗和判刑的决策,来缓解监禁泛滥和暴力犯罪的发生。

这里描述的第一个实验探究了COMPAS算法如何在一个有人类受试者的受控环境中影响准确性。在预测被告再犯风险时,COMPAS算法的准确率显著高于评估被告档案的参与者(65.0% vs. 54.2%)。然而,当参与者将算法的风险评估纳入他们的决策时,他们的准确性并没有提高。该实验还评估了提出一个建议的效果,该建议旨在警告对少数群体可能产生的不同影响。然而,研究结果表明,这一建议并没有显著影响累犯预测的准确性。

此外,风险评估软件的公平性也越来越受到研究者的关注。尽管许多人承认这些工具可能存在算法偏差,但他们认为,让人类参与其中可以确保被告受到公平对待。然而,第二个实验的结果表明,算法的风险评分就像锚一样,引发了认知偏差:参与者将自己的预测同化到算法的评分中。观看低风险评分组的参与者提供的风险评分,平均比观看高风险评分组的参与者在评估同一组被告时提供的风险评分低42.3%。考虑到人类的这种敏感性,不准确的算法仍然可能导致错误的决策。

综合考虑,这些发现表明,人类和机器之间的合作不一定会带来更好的结果,当算法错误显示出有关偏差时,人类监督并不能充分解决问题。如果机器要改善刑事司法系统及其他领域的结果,未来的研究必须进一步调查它们的实际作用:为人类决策者提供输入。

ACM队列的q戳相关文章
queue.acm.org

模型可解释性的神话
扎卡里·c·利普顿
https://queue.acm.org/detail.cfm?id=3241340

API执行合同
罗伯特·f·斯普劳尔和吉姆·沃尔多
https://queue.acm.org/detail.cfm?id=2576968

算法决策中的问责
尼古拉斯Diakopoulos
https://queue.acm.org/detail.cfm?id=2886105

回到顶部

参考文献

1.Angwin, J, Larson, J.机器偏差。ProPublica(2016年5月23日)。

2.如何成为一个半人马。J.设计与科学(2018年1月)。

3.具有不同影响的公平预测:累犯预测工具的偏差研究。大数据5, 2(2017), 153163。

4.Corbett-Davies, S., Pierson, E., Feller, A., Goel, S.和Huq, A.算法决策和公平成本。在二十三次会议的会议记录理查德·道金斯ACM SIGKDD实习生。知识发现与数据挖掘。ACM出版社,2017,797806。

5.克里彻,C.R.和吉洛维奇,t,附带的环境锚。J.行为决策, 3(2008), 241251。

6.累犯预测的准确性、公平性和局限性。科学进步4地球物理学报,1 (2018),eaao5580。

7.用刑事判决掷骰子:不相关锚点对专家司法决策的影响。人格与社会心理学通讯, 2(2006), 188200。

8.锚定效应的文献综述。社会经济学, 1(2011), 3542。

9.Goldstein, i.m., Lawrence, J.和Miner, A.S.。癌症及其他领域的人机合作:半人马护理模型。JAMA肿瘤3, 10(2017), 1303。

10.关于广告中强制性免责声明影响的证据。J.公共政策与市场营销, 2(2012), 293304。

11.互补计算:将呼叫者从对话系统转移到人工接待员的策略。用户建模和用户适应交互, 12(2007), 159182。

12.用AI公平性克服AI偏见。Commun。ACM(2018年12月6日)。

13.《司法思维的内部:探讨魁北克省混合法制中的司法方法论》。欧洲《比较法与治理》(2014年2月)。

14.卡尼曼,D。思考,快与慢。法勒,施特劳斯和吉鲁,2011年。

15.不确定性下的数值判断:知识在锚定中的作用。J.实验社会心理学, 5(2000), 495518。

16.专家、业余爱好者和房地产:对房地产定价决策的锚定和调整视角。组织行为与人类决策过程39, 1(1987), 8497。

17.肖,霍顿,J.J.和陈,dl。为非专业的人类评分者设计激励。在ACM会议记录。计算机支持的协同工作。ACM出版社,2011,275284。

18.州v。鲁姆斯, 2016年。

19.不确定性下的判断:启发式和偏差。科学185, 4157(1974), 11241131。

20.王辛克,肯特,霍奇。购买数量决策的锚定与调整模型。J.市场研究35, 1(1998), 71。

回到顶部

作者

米歇尔·瓦卡罗2019年获得美国马萨诸塞州剑桥市哈佛学院计算机科学学士学位。

吉姆·沃尔多他是美国哈佛大学计算机科学实践的Gordon McKay教授,同时也是哈佛肯尼迪学院的技术政策教授。在加入哈佛之前,他在该行业工作了30多年,其中大部分时间是在太阳微系统公司(Sun Microsystems)。


版权由作者/所有者持有。授权给ACM的出版物权利。
请求发布的权限permissions@acm.org

数字图书馆是由计算机协会出版的。版权所有©2019 ACM, Inc.


没有发现记录

Baidu
map