acm-header
登录

ACM通信

实践

人工智能系统中的偏见


彩色晶体立方体,插图

图片来源:SuperPuay / Shutterstock

回到顶部

戴墨镜的孩子会被贴上“失败者、失败者、不成功的人”的标签。这只是ImageNet Roulette曝光的众多系统性偏见之一。ImageNet Roulette是一个艺术项目,通过从原始ImageNet数据库中提取识别系统,将标签应用到用户提交的照片上。7ImageNet一直是推进人工智能的仪器数据集之一,自2019年底报道了这一情况以来,它已经从“人”类别中删除了50多万张图像。232019年早些时候,研究人员展示了Facebook决定向谁展示给定广告的广告服务算法如何表现出基于用户的种族、性别和宗教的歧视。1有报道称,商业面部识别软件(尤其是亚马逊的Rekognition)对肤色较深的女性存在偏见。622

这些例子让我们得以一窥正在迅速增长的大量工作,这些工作正在揭露与AI系统相关的偏见,但有偏见的算法系统并不是一个新现象。举个例子,1988年,英国种族平等委员会(U.K. Commission for Racial Equality)发现一所英国医学院犯有歧视罪,因为用于筛选面试候选人的算法对女性和非欧洲名字的申请人有偏见。17

随着人工智能在包括司法和卫生保健等领域在内的各个部门的迅速采用,技术专家和政策制定者对基于人工智能的决策缺乏问责制和偏见提出了担忧。从AI研究人员和软件工程师,到产品领导者和消费者,各种各样的利益相关者都参与到AI管道中。有关人工智能、数据集以及共同帮助揭露偏见的政策和权利格局的必要专业知识,在这些利益攸关方中并不都能获得。因此,人工智能系统中的偏见可能会不引人注目地加剧。

例如,考虑一下机器学习(ML)开发人员在这个管道中的关键角色。他们被要求:适当地预处理数据,从几个可用的模型中选择正确的模型,调优参数,并调整模型架构以适应应用程序的需求。假设一个ML开发人员被委托开发一个AI模型来预测哪些贷款会违约。由于没有意识到训练数据中的偏差,工程师可能无意中只使用验证精度训练模型。假设培训数据中有太多违约的年轻人。在这种情况下,当应用于测试数据时,该模型很可能对年轻人违约做出类似的预测。因此,有必要教育ML开发人员了解AI管道中可能出现的各种偏见。

定义、检测、测量和减轻人工智能系统中的偏差不是一项容易的任务,是一个活跃的研究领域。4政府、非营利组织和各行各业都在采取一系列措施,包括执行法规以解决与偏见相关的问题。随着工作的进展,在各种社会制度和途径中认识和解决偏见,有越来越多和持续的努力,以确保计算系统的设计能够解决这些问题。

本文的主要目标是教育非领域专家和实践者,如ML开发人员,了解AI管道的不同阶段中可能出现的各种类型的偏见,并建议减轻偏见的检查清单。关于公平算法的设计有大量的文献。4由于本文旨在帮助ML开发人员,所以重点不是设计公平的AI算法,而是在问题制定、数据创建、数据分析和评估过程中可以遵循的限制和测试偏差的实际方面。具体而言,这些贡献可总结如下:

  • 人工智能管道中的偏见分类。从数据创建和问题制定到数据准备和分析的各个阶段,提供了可以渗透到AI管道中的各种类型偏见的结构化组织。
  • 弥补研究和实践之间差距的指南。本文列出了与在现实世界中实施研究想法相关的挑战的分析,以及填补这一空白的建议实践。本文提供了一些指导方针,可以帮助ML开发人员测试各种类型的偏差。

这项工作的目标是提高人们对偏见的认识和实践技能,明智地使用和采用人工智能系统。

回到顶部

AI管道中的偏见

典型的AI流程从数据创建阶段开始:收集数据;注释的:注释或标记它的;并将其准备或处理为管道的其他部分可以使用的格式。让我们分析一下在这些步骤中如何引入不同类型的偏差。

数据创建的偏见。在创建数据集的过程中可能会出现特定类型的偏差。

回到顶部

抽样偏差

通过选择特定类型的实例而创建的数据集(从而使数据集对真实世界的代表性不足)中出现的偏差称为偏差抽样偏差。这是最常见的数据集偏差类型之一。数据集通常是用一组特定的实例创建的。例如,图像数据集更喜欢街道场景或自然场景。25一个人脸识别算法可能会得到更多浅肤色的人脸照片,而不是深色皮肤的人脸,从而导致在识别深色皮肤的人脸时表现不佳。6因此,采样偏差会导致学习算法的泛化效果较差。

回到顶部

测量偏差

测量偏差是由人类测量中的错误引起的,或者是由于人们在获取数据时的某些固有习惯。例如,考虑图像和视频数据集的创建,其中图像或视频可能反映摄影师使用的技术。例如,一些摄影师可能倾向于以类似的方式拍摄物体;因此,数据集可能只包含特定角度的对象视图。在他们2011年的论文“Unbiased Look at Dataset Bias”中,Torralba和Efros将这种类型的测量偏差称为捕获的偏见。25

测量偏差的另一个来源可能是用于捕获数据集的设备的结果。例如,用于捕捉图像的相机可能有缺陷,导致图像质量较差,从而导致有偏差的结果。这些类型的偏见大致可分为设备的偏见。

第三种类型的测量偏差可能发生在创建数据集时使用代理而不是真实值时。例如,通常用逮捕率代替犯罪率;就医和用药被用作医疗状况的指标,等等。

回到顶部

标签的偏见

标签偏倚与标签过程中的不一致有关。不同的注释器有不同的样式和首选项,这些样式和首选项反映在所创建的标签中。当不同的注释器为同一类型的对象分配不同的标签时(例如,vs。草坪、绘画vs。图片).25

然而,当评价者的主观偏见影响标签时,另一种类型的标签偏见会发生。例如,在一项注释文本中经历的情感的任务中,标签可能会受到注释者的主观偏好(如他们的文化、信仰和内省能力)的影响。24确认偏误21这是指人类倾向于以一种证实自己先入之见的方式来搜索、解释、关注和记住信息,这与这种标签偏见密切相关。因此,标签可能基于先前的信念而不是客观的评估。

第三种类型的标签偏差可以产生于峰端效应。这是一种与记忆相关的认知偏差,即人们对一种经历的判断主要基于他们在巅峰(即最激烈的时刻)和结束时的感受,而不是基于该经历每一刻的总和或平均值。15例如,在分配标签时,一些注释器可能更重视对话的最后部分(而不是整个对话)。24

回到顶部

负集偏见

Torralba和Efros定义负集偏见因为在数据集中没有足够的样本来代表“世界其他地方”。25作者指出,“数据集定义一个现象(例如,对象、场景、事件)不仅根据它是什么(积极实例),而且根据它不是什么(消极实例)。”因此,学习到的分类器在检测否定实例时表现不佳。

与问题表述相关的偏见。根据问题的定义,可能会产生偏见。考虑下面的例子麻省理工学院技术评论凯伦郝。13假设一家信用卡公司想要使用人工智能预测客户的信用状况。为了做到这一点,必须以一种可以“预测或估计”的方式来定义信誉。这个问题可以根据公司的需求来表述,比如最大化其利润率或最大化获得偿还的贷款数量;然而,康奈尔大学(Cornell University)专门研究公平问题的索兰•巴罗卡斯(Solan Barocas)表示:“这些决定是出于各种商业原因,而不是出于公平或歧视。”

回到顶部

框架效应偏差

前面的信誉例子可以被认为是一种框架效应的偏见。21根据问题的表述方式和信息的呈现方式,得到的结果可能不同,甚至可能有偏差。另一个值得注意的例子是COMPAS(惩教罪犯管理分析替代制裁)辩论8关于公平的定义,Northpointe(现在被称为Equivant)提出了COMPAS评分,以评估再犯的风险,和ProPublica,声称COMPAS系统有偏见。ProPublica声称诺斯波因特的方法对黑人被告有偏见,因为黑人群体的假阳性率较高。公平有几个衡量标准,而且ProPublica称诺斯波因特的制度违反了平等机会平等的公平标准。Northpointe的主要辩护理由是,从预测率平价的角度来看,分数满足公平性。4因此,基于问题及其成功度量的定义方式可能会产生偏差。

与算法/数据分析相关的偏差。在算法或数据分析过程中可能会出现几种类型的偏差。

回到顶部

样本选择偏差

样本选择偏差通过选择个人、群体或数据进行分析,使样本不能代表拟分析的总体。9特别是,在数据分析过程中,由于数据集中的一些变量(例如,特定的肤色、性别等)的条件作用,会产生样本选择偏差,这反过来会产生虚假的相关性。例如,在分析母亲身份对工资的影响时,如果研究仅限于已经就业的妇女,那么由于对就业妇女的条件作用,测量的影响将会有偏差。9常见的样本选择偏差包括伯克森悖论20.和样本截断。9

回到顶部

混杂的偏见

如果算法没有考虑到数据中的所有信息而学习到错误的关系,或者如果它错过了特征和目标输出之间的相关关系,那么AI模型就会产生偏差。20.混杂的偏见源自影响投入和产出的共同原因。考虑这样一个场景,研究生院的录取是基于这个人以前的平均绩点。然而,可能还有其他因素,比如获得教练的能力,这反过来可能取决于一些敏感的属性,比如种族;这些因素可能会决定平均绩点和录取率。16结果,输入和输出之间引入了虚假的关系,从而可能导致偏差。


根据问题的表述方式和信息的呈现方式,得到的结果可能不同,甚至可能有偏差。


一种特殊类型的混杂偏差是省略变量,当分析中没有包括一些相关的特征时,就会出现这种情况。这也与模型欠拟合问题有关。

另一种混杂偏差是代理变量。即使决策时不考虑种族和性别等敏感变量,在分析中使用的某些其他变量也可以作为这些敏感变量的“代理”。例如,邮政编码可能是种族的象征,因为某个种族的人可能主要居住在某个社区。这种类型的偏见通常也被称为间接的偏见间接歧视。

回到顶部

设计相关的偏见

有时,偏差是算法限制或系统上的其他约束(如计算能力)的结果。这一类别中值得注意的条目是算法的偏见,可以定义为仅由算法诱导或添加的bais。在他们1996年的论文《计算机系统的偏见》中,弗里德曼和尼森鲍姆10提供一个例子:依靠随机性来公平分配结果的软件并不是真正的随机;例如,通过将选择偏向列表末尾或开头的项,结果可能会产生偏差。

另一种与设计相关的偏见是排名的偏见。18例如,如果一个搜索引擎在每个屏幕上显示三个结果,可以理解为对前三个结果的优先权略高于后三个结果。10排名偏差也与陈述偏差密切相关,18这源于这样一个事实,即您只能收到关于已呈现给用户的项目的用户反馈。即使在那些已经显示的内容中,收到用户反馈的可能性也会受到显示内容的位置的进一步影响。2

与评估/验证相关的偏见。有几种类型的偏差来自于人类评估者的固有偏差,以及评估者的选择(样本处理偏差)。

回到顶部

人类评价偏见

通常,人工评估人员被用于验证AI模型的性能。诸如确认偏差、峰值结束效应和先验信念(例如,文化)等现象会在评估中产生偏差。15人类评估人员还受到他们能回忆起多少信息的限制,这可能导致回忆偏倚。

回到顶部

样品处理的偏见

有时,用于评估算法的测试集可能是有偏见的。3.例如,在推荐系统中,一些特定的观看者(例如,说某种语言的人)可能会看到广告,而另一些则不会。因此,观察到的影响将不能代表对一般人口的真正影响。在有选择地让一些人接受某种治疗的过程中产生的偏见被称为样品处理的偏见。

回到顶部

验证和测试数据集偏差

在验证和测试数据集中,也可以从样本选择和标签偏差中诱导偏差。25一般来说,与数据集创建阶段相关的偏差也会在模型评估阶段显示出来。此外,评估偏差可能源于选择不适当的基准/数据集进行测试。

伴随数字提供了AI管道各个阶段的偏见分类的说明,如前几节所讨论的。

尽管人工智能社区为解决与偏见相关的挑战做出了大量研究努力,但仍有一些差距阻碍了集体进步。接下来,我们强调其中的一些差距。

uf1.jpg
数字AI管道中的偏倚类型的分类。

回到顶部

研究与实践之间的差距

有人提出了对抗数据集偏差问题的方法,也有人提出了强调保持多样性的新数据集。例如,人脸多样性数据集包含了近100万张从Yahoo!Flickr创作共用数据集,专门为实现肤色、面部结构、年龄和性别类别之间的统计平等而组装。然而,在他们2019年的论文《挖掘AI》中,克劳福德和帕格伦质疑在创建这个数据集时使用的颅骨测量特征,因为这些特征也可能是种族偏见的代理。7作者进一步提供了与几个基准数据集相关的问题的批判性回顾。

“机器学习中的公平性”是一个活跃的研究领域。也有专门针对这个主题的会议和研讨会。对机器学习中公平性的全面概述超出了本次调查的范围。关于公平性的各种算法定义和在分类中实现公平性的方法的广泛概述,请参阅Barocas等人。4还有一些开源工具,如IBM的AI fair 3605,可以帮助检测和减少不必要的算法偏差。尽管做出了这些努力,但仍存在明显的差距,正如Gajane和Pechenizkiy在2018年的论文《关于用机器学习在预测中形式化公平性》中所指出的那样。11

填补缺口。已经提出了减少人工智能系统潜在偏差的实践指南。这些包括来自IBM的“数据集事实表”和“数据集数据表”,这是一种共享用于训练AI模型的数据集基本信息的方法。12在2019年的论文中,Mitchell等人建议使用已发布模型的详细文档,以鼓励透明度。19

Holstein等人确定了团队在实践中面临的挑战与公平的ML研究文献中提出的解决方案之间的一致性和脱节的领域。14作者敦促未来的研究应该侧重于支持从业者收集和策划高质量的数据集。作者进一步看到需要创建特定领域的教育资源、度量、过程和工具。本着这种精神,本文旨在为ML开发人员提供一种教育资源,帮助他们理解AI管道中的各种偏见来源。

回到顶部

ML开发人员指南

虽然不可能消除所有的偏见来源,但通过某些预防措施,可以减少一些偏见问题。以下是一些关键信息,可以帮助ML开发人员识别潜在的偏见来源,并帮助避免引入不必要的偏见:

  • 在定义和检测偏倚时,结合领域特定的知识是至关重要的。理解数据集中不同特征之间的结构依赖关系是很重要的。通常,它有助于绘制结构图,说明感兴趣的各种特征及其相互依赖性。这可以帮助识别偏见的来源。20.
  • 根据应用程序,理解数据的哪些特性被认为是敏感的也很重要。例如,在决定谁获得贷款时,年龄可能是一个敏感的特征,但在决定谁获得医疗时却不一定如此。此外,可能存在代理特征,尽管不被认为是敏感特征,但仍然可能编码敏感信息,从而产生有偏见的预测。
  • 用于分析的数据集应尽可能代表所考虑的真实人口。因此,在构建有代表性的数据集时必须小心。
  • 必须制定适当的标准来注释数据。必须定义规则,以便尽可能从注释器获得一致的标签。
  • 识别所有可能与感兴趣的目标特征相关联的特征是很重要的。忽略与目标特性有依赖关系的变量会导致有偏见的估计。
  • 与输入和输出都相关的特征可能导致有偏见的估计。在这种情况下,重要的是在选择输入时,通过适当的数据条件和随机化策略消除这些混杂偏差的来源。20.
  • 将数据分析限制在数据集的某些截断部分会导致不必要的选择偏差。因此,在选择用于分析的数据子集时,必须注意不要引入样本选择偏差。
  • 在验证模型的性能时,如在a /B测试中,必须注意防止引入样本处理偏差。换句话说,在测试一个模型的性能时,测试条件不应该局限于人口的某个子集(例如,只向某个地区的人显示推荐结果),因为结果会有偏见。

回到顶部

结论

本文将从数据集创建和问题制定到数据分析和评估,对AI流程中可能出现的各种偏差进行组织。它强调了与设计偏见缓解策略相关的挑战,并概述了研究人员建议的一些最佳实践。最后,提出了一组指导方针,可以帮助ML开发人员识别潜在的偏见来源,以及避免不必要的偏见的引入。这项工作旨在为ML开发人员提供教育资源,帮助他们处理和解决AI系统中有关偏见的问题。

回到顶部

参考文献

1.Ali, M., Sapiezynsk, P., Bogen, M., Korolova, A., Mislove, A., Rieke, A.通过优化辨别:Facebook的广告投放如何导致有偏见的结果。在美国计算机学会人机交互论文集(2019);https://dl.acm.org/doi/10.1145/3359301

2.在机器学习的背景下,呈现反馈偏差的概念指的是什么?Quora, 2015;https://www.quora.com/What-does-the-concept-of-presentation-feedback-bias-refer-to-in-the-context-of-machine-learning

3.Austin, p.c., Platt, R.W.幸存者治疗偏差、治疗选择偏差和观察性研究的倾向评分。, 2 (2010), 136-138;https://www.jclinepi.com/article/s0895 - 4356(09) 00247 - 9 /全文

4.巴洛卡斯,S.,哈特,M.,纳拉亚南,A.公平与机器学习:限制和机会,2019;https://fairmlbook.org

5.贝拉米,r.k.e等人。AI公平360:一个可扩展的工具包,用于检测、理解和减轻不必要的算法偏差。2018年,arXiv;https://arxiv.org/abs/1810.01943

6.Buolamwini, J, Gebru, T.性别阴影:商业性别分类的交叉准确性差异。在机器学习研究进展1 - 15 (2018);http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf

7.挖掘人工智能:机器学习训练集中的图像政治。AI Now研究所,纽约大学,2019年;https://www.excavating.ai

8.累犯预测的准确性、公平性与局限性。科学进步41 (2018);https://advances.sciencemag.org/content/4/1/eaao5580

9.内生选择偏差:对撞机变量的条件反射问题。社会学年评31-53 (2014);https://www.annualreviews.org/doi/full/10.1146/annurev-soc-071913-043455

10.弗里德曼,B.,尼森鲍姆,H.计算机系统的偏差。在ACM反式。信息系统143 (1996),https://dl.acm.org/doi/10.1145/230538.230561

11.加简,P, Pechenizkiy, M.关于机器学习在预测中的形式化公平性。在《实习生会议录》机器学习,公平,问责和透明度研讨会, 2018;https://www.fatml.org/media/documents/formalizing_fairness_in_prediction_with_ml.pdf

12.Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Daumé III, H., Crawford, K.数据集的数据表。在五人会议记录th机器学习中的公平、问责和透明研讨会, 2018;https://www.microsoft.com/en-us/research/uploads/prod/2019/01/1803.09010.pdf

13.这就是人工智能偏见发生的原因,也是为什么它如此难以修复的原因。麻省理工学院技术评论https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/

14.Holstein, K., Vaughan, j.w., Daumé III, H., Dudik, M., Wallach, H.提高机器学习系统的公平性:行业从业者需要什么?在2019年SIGCHI会议论文集。计算系统中的人为因素硕士论文;https://dl.acm.org/doi/10.1145/3290605.3300830

15.通过时刻的评价:过去和未来。选择,价值和框架。D.卡尼曼和A.特沃斯基,埃德。剑桥大学出版社,纽约,2000。

16.基尔伯图斯,鲍尔,p.j.,库斯纳,m.j.,韦勒,A,席尔瓦,R.反事实公正性对未测量混淆的敏感性。在人工智能的不确定性http://auai.org/uai2019/proceedings/papers/213.pdf

17.洛瑞,S.麦克森,G. 1988。职业上的污点。英国医学J。临床研究杂志。296,6623 (1988),657;https://www.bmj.com/content/296/6623/657

18.Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., Galstyan, A.关于机器学习中的偏见和公平的调查。2019年,arXiv;https://arxiv.org/abs/1908.09635

19.米切尔,M.等。用于模型报告的模型卡。在2019年AAAI/ACM会议论文集:人工智能、伦理与社会;arXiv;https://arxiv.org/abs/1810.03993

20.珀尔,J,麦肯齐,D。《为什么之书:因果新科学》。基本的书,2018年。

21.Plous, S。判断与决策的心理学。麦格劳-希尔,1993年。

22.Raji, I., Buolamwini, J.可操作审计:调查公开命名商用AI产品有偏见的性能结果的影响。在2019年AAAI/ACM会议论文集:人工智能、伦理与社会, 429 - 435;https://dl.acm.org/doi/10.1145/3306618.3314244

23.在艺术项目暴露种族歧视后,600,000张小的图像从AI数据库中删除。Hyperallergic, 2019;https://hyperallergic.com/518822/600000-imagesremoved-from-ai-database-after-art-project-exposesracist-bias/

24.Srinivasan, R, Chander, A.缺乏基本事实的众包——一个案例研究。在2019年实习生会议记录。关于循环学习的机器学习研讨会https://arxiv.org/abs/1906.07254

25.Torralba, A., Efros, A.A.:数据集偏见的无偏观。在2011年IEEE计算机视觉与模式识别会议论文集, 1521 - 1528;https://ieeexplore.ieee.org/document/5995347

回到顶部

作者

Ramya Srinivasan他是美国富士通研究院的一名人工智能研究员。她的背景是计算机视觉、机器学习、可解释人工智能和人工智能伦理等领域。

Ajay Chander领导研发团队设想和构建新的以人为本的技术和产品。他的工作涉及透明人工智能、人工智能生活助手、数字医疗保健和健康、软件工具设计、安全性和计算行为设计。他获得了ACM十年最具影响力论文奖。


©2021 0001 - 0782/21/8 ACM

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.


没有发现记录

Baidu
map