acm-header
登录

ACM通信

的观点

算法、平台和种族偏见


平台的偏见,插图

来源:《华尔街日报》

种族和其他偏见越来越被认为是困扰软件算法和数据集的一个问题。912这很重要,因为算法和数字平台组织了越来越多的社会、政治和经济生活领域。算法已经在不断扩大的数据集中进行筛选,以提供信用评级、提供个性化广告、配对约会网站上的个人、标记不寻常的信用卡交易、推荐新闻文章、确定抵押贷款资格、预测未来犯罪的地点和罪犯、分析résumés、为求职者排名、协助保释或缓刑程序,以及执行各种各样的其他任务。数字平台由在软件中执行的算法组成。正如劳伦斯·莱西格(Lawrence Lessig)所观察到的,在执行这些功能时,“代码”在构造人类活动方面的作用就像法律一样。算法和在线平台不是中立的;它们是用来框定和驱动行动的。8


如果没有适当的缓解,预先存在的社会偏见将嵌入到做出或构建现实世界决策的算法中。


算法“机器”是建立在关于人和物之间关系的特定假设之上的。随着机器学习等技术的广泛应用,人们的担忧正变得越来越尖锐。对于工程师和政策制定者来说,了解算法过程中如何以及在哪里会出现偏差,有助于解决这个问题。我们的贡献是引入了一个可视化模型(见附图),它扩展了以前的研究,以定位算法过程中可能发生的偏差。6

回到顶部

算法决策中的询问偏差

当然,社会偏见早已被承认。一些人将算法引入偏见的原因归结为软件开发人员不太精通民权和公平等问题。3.另一些人则认为,它在社会及其表达中更为深刻。4受价值链研究的启发,我们的模型不能解决偏见;它为识别和处理可能影响算法的有意识或无意识的偏见来源提供了一个模板。可以肯定的是,如果没有适当的缓解,预先存在的社会偏见将嵌入到做出或构建现实世界决策的算法中。

我们将算法开发、实现和使用建模为具有五个不同的节点:输入、算法操作、输出、用户和反馈。重要的是,我们引入用户是因为他们的行为会影响结果。如图所示,我们确定了9种潜在的偏见。它们不是相互排斥的,因为在一个单一的算法过程中可能存在多个相互作用的偏差。

回到顶部

类型的偏见

训练数据偏差。预测算法是在数据集上训练的,因此训练数据中的任何偏差都会在算法中反映出来。原则上,这种偏差应该很容易检测,但来源可能很难检测。假设的黄金标准数据集,比如政府统计数据,甚至司法定罪率,常常包含偏见。例如,如果刑事司法系统有偏见,那么,如果没有修正,算法将反映这种偏见。因此,训练集可能是导致偏差的微妙因素。

算法重点偏见。算法的焦点偏差来自于对特定变量的包含和排除。例如,在健康诊断算法中排除性别或种族可能导致不准确甚至有害的结论。然而,在量刑算法中包含性别、种族甚至邮政编码都可能导致歧视。这是一个难题:在某些情况下,必须有意使用这些变量来产生不那么偏颇的结果。5

uf1.jpg
数字潜在的偏差以及它们在算法价值链中可能被引入的位置。

算法处理的偏见。偏差可以嵌入到算法本身中。这种偏差的一个来源是对特定变量的包含和加权。以一家公司的首席科学家的发现为例:“强大编码的一个可靠预测指标是对特定日本漫画网站的亲和度。”10如果这体现在职位候选人筛选软件中,那么这种看似无害的选择可能会排除特定的合格候选人。实际上,一个理想的代理特征会在不经意间排除某些可以执行工作的群体。

传输上下文的偏见。传输上下文偏差发生在算法输出应用到不适当或无意的上下文时。一个例子是使用信用评分来做出招聘决定。尽管没有证据表明信用评分与工作表现有关,但不良的信用就等同于未来的工作表现较差。如果这种不受欢迎但不相关的特征与种族有关,那么它可能会导致有偏见的结果。

解释偏见。当用户根据他们的内化偏见解释算法输出时,就会产生解释偏差。例如,法官可以收到算法生成的累犯预测分数,并决定被告的惩罚或保释金额。因为个别裁判可能会无意识地产生偏见,他们可能会用分数作为一个有偏见的决定的“科学”理由。

结果不透明性的偏见。算法,尤其是人工智能和机器学习,通常会产生不透明的结果。算法的创造者或软件的所有者甚至无法解释产生这些结果的原因。例如,当机器学习程序建议拒绝贷款申请时,传达决定的银行官员可能不知道拒绝的确切原因。由于缺乏透明度,这些决定的主体很难确定歧视性结果,甚至难以确定产生这种结果的原因。

自动化的偏见。自动化偏差产生于相信输出是事实,而不是有置信度的预测。例如,信用决策现在是完全自动化的,并使用群体聚合和个人信用历史。13该算法会给某些人较低的分数,并限制他们获得信贷的机会。信用拒绝意味着他们的分数不能提高。通常,实验对象和决策者并不知道算法的假设,不加批判地接受决策。欧盟《GDPR》第22条试图通过限制自动算法决策过程来提供一些保护,用于法律或类似的影响生活的决策。11

消费者的偏见。人们在日常生活中所遵循的偏见表现在他们的网络活动中。此外,数字平台可能加剧或表现出在线行为中的潜在偏见。用户可能会有意识或不自觉地根据包含种族可识别特征的用户资料进行歧视。在数字互动中,消费者偏见可能发生在任何一方或任何一方。或者,更有甚者,匿名网络黑客故意“教”微软(Microsoft)的聊天机器人Tay(该机器人在2016年才向公众开放了几天)用令人反感的种族言论来回应。实际上,算法或平台为用户提供了一个表达他们偏见的新场所。

反馈回路的偏见。算法系统创建了一个数据追踪。例如,谷歌搜索算法响应并记录一个查询,该查询将成为后续搜索的自定义输入。该算法从用户行为中学习。例如,在预测警务中,算法几乎完全依赖历史犯罪数据。假设算法派警察进入社区防止犯罪。不足为奇的是,增加警察的存在会导致更高的犯罪侦破率,从而提高统计犯罪率。这可以促使派遣更多的警察,逮捕更多的人,从而启动一个反馈循环。在另一个例子中,谷歌搜索可以了解到有种族偏见的网站经常被选择,因此更经常地推荐它们,从而宣传它们。尽管算法非常聪明,但人工监控仍然是必要的。

回到顶部

平台和算法的好处

算法决策的潜在好处很少被注意到,但它也可以用来减少社会偏见。众所周知,执法部门的成员做出的决定会受到被告“行为举止”、服装和其他可能与种族相关的特征的影响,算法过程不会“看到”这些特征。这为减轻这种偏见提供了可能性。例如,Kleinberg等人创建了一种机器学习算法,在做出保释决定时可以比法官做得更好。7该算法经过优化,以减少被监禁者之间的种族差异,同时也降低了再犯罪率。这种优化是可能的,因为某些种族群体中有不成比例的高数量的人被监禁。关键是设计具有不同社会目标的算法是可能的。批评者忽略了一个事实,即数据和工具可以用来减少不平等,提高效率和效力。

因为算法是机器,它们可以被重新设计以提高结果。举例来说,销售网站可以重新设计一个网站,例如,提供更大的匿名性,从而减少消费者偏见的机会。因为所有的数字活动都会留下记录,所以更容易发现有偏见的行为,从而减少它。例如,政府机构可以研究在线行为模式,以识别有偏见的行为。如果它可以被识别,那么它就可以被预防。例如,很容易评估消费者对在线供应商的评价是否有偏见,并采用标准化算法来减轻这种偏见。因此,虽然平台和算法可以以歧视的方式使用,但也可以通过研究来揭露和解决偏见。当然,这样做的意愿是必要的。

回到顶部

结论

计算机科学家面临着独特的挑战和机会,可以利用他们的技能来解决严重的社会问题——偏见。我们开发了一种易于理解的视觉模型,用于识别算法和人类之间的复杂交互中可能出现的偏差。虽然我们关注的是种族偏见,但也有可能将我们的模型扩展到其他类型的偏见。该模型在政策讨论中特别有用,可以向政策制定者和外行解释某项倡议在哪些方面可能产生影响,以及哪些方面不会得到解决。


减轻算法偏差的兴趣增加了,但“纠正”数据以增加公平性可能会因确定什么是“公平”而受到阻碍。


减轻算法偏差的兴趣增加了,但“纠正”数据以增加公平性可能会因确定什么是“公平”而受到阻碍。一些人认为,透明度将防止偏见和其他社会不希望出现的结果。2领先的计算机专业组织(如ACM)意识到了这些问题,并建立了指导其成员解决这些问题的原则。例如,2017年ACM公共政策委员会发布了一份关于算法透明度和问责制的一般原则声明,指出潜在的偏见是一个严重的问题。1不出所料,公司抵制透明化,他们认为披露自己的数据和算法可能会让其他参与者利用他们的系统。在许多情况下,这种反应是有效的,但它也是自利的,因为它阻止了审查。软件开发人员通常无法对复杂的算法结果提供明确的解释,这意味着仅靠透明度可能无法提供问责。此外,一个单一的算法模型可能包含多个相互作用的偏差来源,从而造成追踪其来源的更大困难。然而,即使在这种情况下,也可以对结果进行测试,以发现潜在偏见的证据。

平台、算法、软件、数据驱动决策和机器学习正在塑造选择、替代方案和结果。了解数字技术在何处以及如何表达和强化偏见等社会弊端至关重要。算法偏见是可以解决的,因此,那些认为这些技术必然会加剧偏见的批评者太悲观了。数字过程生成的记录可以用软件工具进行检查和分析。在模拟世界中,研究和识别种族或其他类型的歧视是困难和昂贵的。在数字世界中,捕获的数据通常是永久性的,可以用现有技术进行分析。尽管数字技术有可能用新工具强化旧的偏见,但它们也可以帮助识别和监测消除种族偏见方面的进展。

回到顶部

参考文献

1.ACM。公共政策委员会:关于算法透明度和问责的声明。12 (2017);http://bit.ly/2n4RBjV

2.见而不知:透明度理想的局限性及其在算法问责中的应用。新媒体与社会(2018年3月),973989。

3.巴洛卡斯,S.等。大数据、数据科学与民权。arXiv预印本arXiv:1706.03102(2017)。

4.Caliskan, A., Bryson, J.J.和Narayanan, A.从语言语料库中自动派生的语义包含类似人类的偏见。科学356, 6334 (2017), 183186;https://doi.org/10.1126/science.aal4230

5.d'Alessandro, B, O'Neil, C,和LaGatta, T.良心分类:一个数据科学家的歧视意识分类指南。大数据5, 2(2017年2月),120134。

6.自治系统中的算法偏差。在第二十六届人工智能国际联合会议论文集(2017年8月),46914697。

7.Kleinberg, J.等。人类的决策和机器的预测。经济学季刊, 1(2017年1月),237293。

8.Lessig, L。法典:网络空间的其他法律(2009);ReadHowYouWant.com

9.奥尼尔,C。数学毁灭的武器:大数据如何增加不平等和威胁民主。百老汇出版社,纽约,2016年。

10.派克,p,他们在监视你工作。大西洋(2013年12月);https://bit.ly/2jhKIt4

11.欧盟GDPR门户。《通用数据保护条例》的主要变更。欧盟GDPR门户(2017)。

12.席尔瓦,S.和肯尼,M.算法,平台,和种族偏见:一篇综合论文。《克拉克亚特兰大大学种族与文化评论12(2018)。

13.算法决策的问题:在自动化和不透明的决策制定中检验效率和公平的分析路线图。科学、技术和人的价值, 1(2016年1月),118132。

回到顶部

作者

赛琳娜席尔瓦ssssilva@ucdavis.edu)是美国加州大学戴维斯分校的研究助理。

马丁肯尼mfkenney@ucdavis.edu)是美国加州大学戴维斯分校人类生态系特聘教授,也是美国加州伯克利国际经济圆桌会议的研究主任。

回到顶部

脚注

这项研究部分由考夫曼基金会和克拉克亚特兰大大学资助。本观点的内容完全是作者的责任。


版权归作者所有。
向所有者/作者请求(重新)发布权限

数字图书馆是由计算机协会出版的。版权所有©2019 ACM, Inc.


没有发现记录

Baidu
map