ACM

ACM通信

首页 / 杂志存档 / 2022年6月(第65卷第6期) / 负责数据管理 /全文

贡献的文章

负责数据管理

作者:Julia Stoyanovich, Serge Abiteboul, Bill Howe, H. V. Jagadish, Sebastian Schelter
ACM通信，2022年6月，第65卷第6期，64-74页
10.1145 / 3488717
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享分享到黑客新闻在推特上分享在Facebook上分享

将道德和法律合规纳入数据驱动的算法系统已经引起了计算研究社区的极大关注，尤其是在公平的保护伞下⁸和可翻译的¹⁶机器学习。虽然这很重要，但大部分工作都被限制在数据分析的“最后一英里”范围内，并忽视了这两者系统的设计、开发和使用生命周期(我们在自动化什么?为什么?系统是否按预期工作?部署后是否有任何不可预见的后果?)及数据生命周期(数据来自哪里?多长时间是有效和适当的?)在本文中，我们讨论两点。首先，我们在数据收集和准备过程中所做的决定深刻地影响着我们构建的系统的稳健性、公平性和可解释性。其次，我们对这些系统运行的责任不会在它们部署时停止。

回到顶部

关键的见解

例如:自动化招聘系统。为了使我们的讨论更具体，考虑在招聘中使用预测分析。自动化招聘系统的应用越来越广泛，而且与招聘实践本身一样多种多样，从声称能找到有前途的求职者的简历筛选器^一个视频和语音分析工具，促进面试过程^b基于游戏的评估能够揭示预示未来成功的个性特征。^c弧状和里克⁵从雇主的角度来描述招聘过程，将其描述为形成漏斗的一系列决策，包括采购、筛选、面试和选择等阶段。（图1描述了这个漏斗的一个稍微重新解释的版本。)

图1。招聘漏斗是自动化决策系统的一个例子，这是一个数据驱动、算法辅助的过程，最终会向一些候选人提供工作，而拒绝另一些候选人。

自动化招聘系统的流行在很大程度上是由于我们对效率的集体追求。仅在2019年，全球人工智能(AI)招聘市场的价值就达到5.8亿美元。^d雇主选择使用这些系统来更快地寻找和筛选候选人，文书工作更少，而且在新冠疫情后的世界里，面对面接触也越来越少。公司承诺，求职者将获得更精简的求职体验，尽管他们很少有权决定是否由机器进行筛选。

自动化带来的效率的另一面是，我们很少了解这些系统是如何工作的，实际上，也很少了解它们是否工作。resumé的筛选器是在甄别有前途的候选人，还是从历史数据中挑选不相关的——甚至是歧视性的——模式，限制了整个人口群体获得必要的经济机会，并可能使雇主承担法律责任?如果一个求职者被系统地筛选出去，没有机会进行人工干预和求助，尽管她完全符合工作条件，那么她是在参加公平竞争吗?

如果当前的采用趋势是某种迹象的话，自动化招聘系统将会影响我们每一个人——雇员、雇主，或者两者兼有。更重要的是，我们中的许多人将被要求帮助设计和构建这样的系统。然而，它们的广泛使用远远超过了我们理解、验证和监督它们的集体能力。这象征着一个更广泛的问题:广泛而往往仓促地采用自动决策系统(ADSs)没有对其有效性、法律合规性和社会可持续性进行适当的事先评估。

定义股美国存托凭证。虽然欧盟、美国几个州和其他司法管辖区提出的法规开始集中考虑一些因素，包括人类在决策中的自由裁量权程度、影响程度和所涉及的特定技术，但目前对于ADS是或不是什么还没有达成共识。作为挑战的一个例子，纽约ADS特别工作组报告的第六章^e总结了一个长达数月的斗争，有点讽刺的是，定义自己的任务:起草一个定义，抓住广泛的道德和法律关切，但仍然实际有用。我们的观点是倾向于广度，但要根据应用领域和使用环境、影响程度、³⁴以及相关的法律法规要求。例如，美国存托凭证在招聘和就业方面的使用与在信贷和贷款方面的使用受到不同的关注。此外，潜在的危害也会有所不同，这取决于ADS是用于发布就业或财务机会的广告，还是用于帮助决定雇用谁以及向谁提供贷款。

为了定义ADS，我们可以从一些例子开始。图1的招聘漏斗和相关组件，如自动简历筛选工具和将求职者与职位匹配的工具，是ads的自然例子。但是计算器是ADS吗?不，因为它没有使用上下文的限定。有了这些例子，我们提出了一个实用的ads定义:

他们处理关于人的数据，其中一些可能是敏感的或专有的
它们有助于作出对人们的生活和生计产生影响的决定
它们涉及到人工和自动化决策的结合
它们旨在提高效率，并在适当情况下促进公平获得机会

在这一定义中，我们有意将注意力转向最终决策责任由人类承担的系统，而不是完全自主的系统，比如自动驾驶汽车。广告系统是ads;虽然它们可以自主运营，但运营条件是通过平台提供商和广告商之间的谈判确定和审查的。此外，监管迫使人们更加密切地监督和参与这些系统的运作。精算模型、音乐推荐系统和健康筛查工具也都是ads。

为什么要负责任的数据管理?辅助决策的技术组件——电子表格公式、配对算法或预测分析——的放置生命周期的数据收集和分析是定义ADS的核心。这反过来又使数据管理社区在负责任的设计、开发、使用和监督这些系统中提供真正的实际影响。由于数据管理技术为执行政策提供了一个自然的、集中的点，我们可以开发方法，通过ADS的生命周期透明、明确地执行要求。由于我们的方法工具包中独特地融合了理论和系统，我们可以通过研究不同类别的法律和效率要求之间的可行权衡来帮助为监管提供信息。我们的务实方法使我们能够通过开发有效且高效的审计和公开标准，以及开发将这些标准嵌入系统的协议来支持遵从性。

在本文中，我们断言数据管理社区应该在负责任的ADS设计、开发、使用和监督中发挥核心作用。自动化决策系统可能使用也可能不使用AI，它们可能也可能不具有高度的自主性，但它们都严重依赖数据。为了为我们的讨论奠定基础，我们首先解释术语“偏差”(第2节)。然后，我们讨论了与ADS监管相关的数据管理挑战，并将责任嵌入到ADS生命周期管理中，指出了新研究贡献的具体机会。我们的重点是有明确需求和有力证据表明技术干预是可能的具体问题。充分解决我们提出的所有问题需要社会技术解决方案，这超出了我们仅凭技术就能做到的范围。虽然这很重要，但由于我们的重点是技术数据管理干预，所以本文中不讨论这种社会技术解决方案。

至关重要的是，我们寻求解决的数据管理问题并非纯粹的技术问题。相反，它们是社会-法律-技术。naïve期望纯粹的技术解决方案就足够了，所以我们必须走出我们的工程舒适区，开始根据价值和信念进行推理，此外还要检查与已知事实相匹配的结果，并优化效率目标。这似乎是高风险的，但好处之一是能够向我们的孩子解释我们做了什么，以及为什么这很重要。

回到顶部

关于偏见

我们经常听说ADS，比如自动招聘系统，运行在“有偏见的数据”上，结果是“有偏见的结果”。在这种情况下，术语“偏差”的含义是什么，它是如何在ADS生命周期中表现出来的，数据管理技术必须提供什么来帮助缓解它?

一般意义上的偏见是指对某些个人或个人群体的系统的、不公平的歧视，以有利于其他人。在1996年的一篇开创性论文中，弗里德曼和尼森鲍姆确定了计算机系统中可能出现的三种偏见:既存的，技术,紧急。¹²我们将在本节的其余部分依次讨论这些问题，同时还将借鉴Olteanu等人最近对偏见进行的精细分类，并提供有关社交媒体平台的深刻例子。²⁶

先前存在的偏见。这种偏见有其社会根源。在数据科学应用程序中，它表现在输入数据中。在算法公平的标题下，检测和减轻既存偏见是许多研究的主题。⁸重要的是，这类偏见的存在或不存在无法得到科学验证;相反，它必须是基于信念系统的假设。¹¹因此，减轻既存偏见的技术尝试的有效性，甚至有效性，都是建立在这种信念系统的基础上的。为了解释先前存在的偏见和技术干预的限制，如数据去偏，我们发现使用镜像反射隐喻是有帮助的，在图2．

图2。数据是世界的一面镜子，³⁷插图由法拉·阿里夫·汗(Falaah Arif Khan)绘制。

镜子的比喻。数据是世界的一面镜子。当我们想到数据中已经存在的偏见时，我们会质疑这种反映，而这种反映往往是扭曲的。一个可能的原因是镜子(测量过程)引入了扭曲。它忠实地代表了世界的某些部分，而放大或缩小了其他部分。另一种可能性是，即使是一面完美的镜子，也只能反射出一个扭曲的世界——一个真实的世界，而不是它可能或应该是什么样的世界。

镜子的比喻帮助我们进行一些简单但重要的观察。首先，仅仅根据反射，如果不了解镜子和它反射的世界的特性，我们就无法知道反射是否被扭曲了，如果扭曲了，是什么原因造成的。也就是说，单靠数据无法告诉我们，它是完美世界的扭曲反映，还是扭曲世界的完美反映，或者这些扭曲是否是复合的。必须明确说明扭曲的假定或外部验证的性质，以使我们能够决定是否以及如何减轻其影响。我们的第二个发现是，这取决于人——个人、群体和整个社会——而不是数据或算法——就世界是否应该是现在这个样子、是否需要改进以及如果需要，我们应该如何改进这个世界达成共识。第三个也是最后一个观察结果是，如果数据被用于做出重要决策，比如聘用谁以及提供什么样的薪酬，那么补偿扭曲是值得的。但镜子的比喻只能到此为止。我们必须更加努力地工作——通常远远超出技术解决方案的范围——将这些变化传播给世界，而不仅仅是温故而知新。³⁷

举一个在招聘中已经存在偏见的例子，考虑在筛选阶段使用申请人的学业评估测试(SAT)成绩。据文献记载，SAT数学部分的平均分数，以及分数分布的形状，在不同种族群体中是不同的。²⁸如果我们认为标准化考试成绩受到备考课程的充分影响，而且分数本身更多地反映了社会经济状况，而不是个人的学术潜力，那么我们就会认为这些数据是有偏见的。然后，我们可能会在使用这一特征之前试图纠正这种偏见，例如，通过选择每个种族中表现最好的个体，或使用更复杂的公平的排名方法这与我们关于偏见本质的信念和我们的偏见缓解目标是一致的。⁴⁰或者，我们可以完全忽略这个特性。

技术偏见。这种类型的偏见是由于技术系统本身的运作而产生的，它会放大已经存在的偏见。技术偏差，尤其是在数据密集型管道的预处理决策或部署后问题时，被认为是有问题的，^23，26，33但到目前为止，在诊断和缓解技术方面，它受到的关注有限。我们现在举几个ADS生命周期阶段中技术偏差的潜在来源的例子，这些阶段与数据管理特别相关。

数据清理。基于数据是否随机丢失的错误假设的缺失值估算方法可能会扭曲保护组的比例。考虑一种形式，它允许求职者选择二元性别，但也允许性别不明确。假设大约一半的申请者认为自己是男性，一半是女性，但女性更有可能忽略性别。如果应用模式输入(用该特征最常见的值替换缺失的值，这是scikit-learn中的一个常见设置)，那么所有未指定的性别值(主要是女性)都将设置为男性。更一般地说，对于缺失值估算的多类分类通常只使用最常见的类作为目标变量，⁴导致了对小群体的扭曲，因为这些群体的成员身份不会受到指责。

接下来，假设一些个体被认为是非二元的。由于系统只支持“男性”、“女性”和“未指定”选项，这些个体将不指定“性别”。如果使用模式归责，则它们的性别将被设置为男性。更复杂的imputation方法仍然会使用来自特征活动域的值，将性别缺失值设置为男性或女性。这个例子说明了数据表示的不完整或不正确的选择可能会产生偏差。虽然处理空值是众所周知的困难，并且已经在数据清理的问题中被考虑在内，但负责任的数据管理的需求引入了新的问题。有文献表明，数据质量问题往往不成比例地影响到历史上处于不利地位的群体成员，^20.因此，我们有可能将由于数据表示而产生的技术偏差与由于统计问题而产生的偏差混合在一起。

自动化带来的效率的另一面是，我们很少了解这些系统是如何工作的，实际上，也很少了解它们是否工作。

其他可能引入倾斜的数据转换包括文本规范化，例如小写、拼写纠正或词干化。这些操作可以看作是一种聚合形式，实际上是将具有不同含义的术语压缩到同一表示形式下。例如，将“Iris”(一个人的名字)小写为“Iris”将使其与一种花的名字或角膜后膜的名字难以区分，而将“[tree] leaves”和“[he is] leaving”这两个词都写成“leaf”。²⁶

其他可能导致数据分布变化的聚合示例包括在空间或时间上“缩小”:用较粗的地理或时间名称替换属性值，或将位置映射到相应的地理边界框的中心。²⁶

过滤。选择和连接通常用作数据预处理的一部分。选择操作根据谓词检查每个数据记录—例如，美国地址邮政编码为10065或年龄小于30—并只保留与谓词匹配的记录。连接结合来自多个表的数据—例如，使用两个数据源中包含的社会安全号码属性作为连接键，创建一个包含患者人口统计信息和临床记录的记录。这些操作可以任意更改保护组的比例(例如，女性)，即使它们没有直接使用敏感属性(例如，性别)作为谓词或连接键的一部分。例如，选择邮递地址邮政编码为10065(曼哈顿上东区最富裕的地区之一)的个人，可能会改变按种族划分的数据分布。同样，将患者人口统计学数据与临床记录相结合可能会根据年龄产生偏差，具有匹配临床记录的年轻人较少。这些比例的变化可能是无意的，但很重要的检测，特别是当它们发生在ADS管道中的一个预处理步骤时。

另一个潜在的技术偏差来源是使用预先训练好的词嵌入。例如，管道可以用单词嵌入的对应向量替换文本名称特征，而这些向量在罕见的非西方名称中是没有的。如果我们过滤掉没有发现嵌入的记录，我们可能会不成比例地剔除特定种族的个体。

排名。当结果按等级排列时，就会产生技术偏见，比如当招聘经理考虑邀请潜在候选人进行面对面面试时。主要原因是固有的位置偏差——与排名靠前的物品相比，排名靠后的物品的可见度呈几何级数下降——这是因为在西方文化中，我们阅读的方式是从上到下、从左到右:屏幕左上角的物品会吸引更多的注意力。^3.一个实际的含义是，即使两个候选人同样适合这份工作，他们中只有一个可以放在另一个之上，这意味着优先级。根据应用程序的需求和决策者的技术成熟度，这个问题可以通过适当地随机排序、显示平手结果或绘制分数分布来解决。

紧急的偏见。这种类型的偏见出现在使用技术系统的环境中。在电子商务中的Web排名和推荐中，一个突出的例子是“富到富”:搜索者倾向于相信系统会在最前面的位置显示最适合他们的条目，这反过来塑造了搜索者对满意答案的想法。

这个例子立即转化为雇佣和就业。如果招聘经理相信ADS的推荐，如果这些推荐系统地优先考虑特定人口特征的求职者，那么就会形成一个反馈回路，随着时间的推移，进一步减少劳动力多样性。弧状和里克⁵举例说明这个问题:“例如，雇主在第三方供应商的帮助下，可能会选择一组符合成功定义的员工——例如，那些在工作上‘表现出色’的员工。如果雇主的绩效评估本身是有偏见的，偏向于男性，那么由此产生的模型可能会预测，男性比女性更有可能表现得更好，或者在评估女性时犯的错误更多。”

突发性偏差特别难以检测和缓解，因为它指的是系统直接控制之外的ADS的影响。我们将在“监督ADS”部分讨论这个问题。

回到顶部

管理ADS数据生命周期

自动化决策系统在很大程度上依赖于数据，因此应该通过科学的视角来看待数据生命周期。¹⁹责任问题和重要的决策点出现在数据共享、注释、获取、管理、清理和集成中。因此，如果我们不考虑这些早期生命周期阶段，就会错过改善数据质量和代表性、控制偏差和允许人类监督过程的大量机会。

数据库系统通过模式、标准和事务协议集中了正确性约束，以简化应用程序开发。随着算法的公平性和可解释性成为一流的需求，有必要开发将它们作为约束嵌入的通用解决方案，并在一系列应用程序中工作。在接下来的内容中，我们强调了我们自己近期和正在进行的受这一需求推动的有希望的例子。这些例子强调了切实可行的技术进步是可能的，而且还需要做很多工作来为ADS生命周期的负责任管理提供系统支持。这些示例并不是详尽无遗的，只是说明了应用于数据生命周期的不同点的技术方法。其他的例子和研究方向，在Stoyanovich等人讨论。³⁷在深入研究细节之前，我们回顾一下之前讨论过的镜面反射隐喻，提醒大家技术干预的局限性。

数据采集。考虑使用ADS对就业申请进行预先筛选。历史上女性和少数族裔在劳动力中的代表性不足，可能导致这些群体在培训集中的代表性不足，这反过来可能会推动ADS拒绝更多的少数族裔申请人，或者更普遍地说，显示出不同的预测准确性。⁷值得注意的是，这里的问题不仅是一些少数群体的比例偏低，而且一些群体的绝对代表性也很低。当非裔美国人占总人口的13%时，在训练集中有2%的非裔美国人是一个问题。但训练集中只有0.2%的印第安人也是一个问题，即使这代表了他们在人口中的比例。如此低的数字可能导致美国原住民作为一个小的“异类”群体被ADS忽略。

为了减轻低的绝对代表性，Asudeh等人。²评估给定数据集对多个分类特征的覆盖范围。对于ADS供应商来说，一个重要的问题是，对于覆盖范围的缺乏，它能做些什么。建议的答案是引导他们获取更多的数据，同时认识到获取数据的成本。Asudeh et al。²使用阈值来确定适当的覆盖率水平，并通过实验证明在获得额外数据时，少数群体分类器的精度有所提高。

这项工作解决了ADS生命周期从模型训练上游的一个步骤，并展示了如何提高数据代表性可以提高不同预测精度意义上的准确性和公平性。⁷很明显，未来有机会将增强覆盖率的干预措施更紧密地集成到ADS生命周期管理中，以帮助协调管道，或许更重要的是，使数据获取任务敏感，根据下游特定预测分析的性能需求而不是基于全局阈值设置覆盖率目标。

数据预处理。即使获得的数据满足代表性要求，它仍然可能会受到既存偏差的影响，如“既存偏差”一节中讨论的那样。因此，我们可能会对开发干预措施来减轻这些影响感兴趣。算法公平界已经开发了几十种数据和模型去偏的方法，但这些方法中的绝大多数采用了一种公平的联想解释这完全是基于数据，没有参考其他结构或上下文。在接下来的内容中，我们展示了两个最近的工作例子，它们采用了公平的因果解释:Salimi等人提出的公平分类的数据库修复框架。²⁹以及Yang等人提出的减轻交叉歧视的公平排名框架。³⁸我们在这里关注因果公平概念的例子，因为它们通过明确地使用结构信息和约束，与数据管理的方法学工具包非常接近。

因果公平方法——例如，Kilbertus等人。²¹和Kusner等人。²²-捕捉背景知识作为变量之间的因果关系，通常表示为因果dag，或有向无环图，其中节点表示变量，边表示潜在的因果关系。考虑在搬家公司选择求职者的任务和相应的因果模型图3，一个受Datta等人启发的例子。¹⁰申请人根据其资格分数被录用Y，从举重能力计算X，并受性别影响G和种族R，要么直接，要么通过X。通过在因果DAG中表示特征之间的关系，我们能够假设特征和结果之间的哪些关系是合理的，哪些是潜在的区别。在我们的例子中，性别的影响(G)就聘用个别人士担任搬家公司职位的决定(Y如果流过代表举重能力的节点(X)．另一方面，性别对雇用决定的直接影响将构成直接歧视，因此将被认为是不可接受的。

图3。因果模型包含敏感属性:G(性别)R(比赛),X(举重能力),Y(效用的分数)。

Salimi et al。²⁹引入了一种叫做介入公平并展示了如何在不需要完整因果模型的情况下，基于观测数据实现分类。作者考虑了一个变量的马尔科夫边界(MB)——父母、孩子、孩子的其他父母Y，描述了这些节点是否可能产生潜在影响Y。他们的关键结果是，如果结果的MB是可接受变量MB的一个子集，则该算法满足干预公平——即，可接受变量“屏蔽”结果不受敏感和不可接受变量的影响。这个条件就用MB来设计数据库修复算法，通过独立约束、编码公平性和多值依赖(MVD)之间的连接，可以使用训练数据进行检查。研究了几种修复算法，结果表明，在修复后的数据上训练的分类器除了能满足干涉公平性外，还能很好地抵抗关联公平性指标。

我们希望解决的数据管理问题并非纯粹的技术问题。相反，它们是社会-法律-技术。

作为显式使用结构假设的数据预处理方法的另一个例子，Yang等人。³⁸建立了因果关系框架区间的公平的排名。他们的动机是，可以对每个敏感属性(如种族和性别)分别给出公平的外观，而对交叉的子群体则是不公平的。⁹例如，如果公平被认为是指最高阶层的比例代表制k，对于每个性别子群体(例如，男性和女性)和每个种族子群体(例如，黑人和白人)来说，是有可能达到比例的，而对于由这两种属性的交集所定义的子群体(例如，黑人女性)仍然没有足够的代表性。Yang等人的方法要点。³⁸是基于因果模型来计算模型的吗反设事实，回答这个问题:“例如，如果这个人是黑人女性，她的分数会是多少?”然后根据与事实相反的分数排名，以实现交叉公平。

数据分布调试。现在我们回到技术偏差的讨论，并考虑数据分布的变化，这可能在数据预处理和影响机器学习模型下游性能期间出现。与之前在部署模型(例如Rabanser等人)中进行的数据分布移位检测的重要工作相比。²⁷-我们的重点显然是数据操纵，这是迄今为止一直被忽视的数据分布变化的原因。我们将说明这种类型的偏差是如何产生的，并将提出一种干预措施:一个数据分发调试器，它有助于揭示技术偏差，允许数据科学家减轻它。³³

以Ann为例，她是一个求职平台的数据科学家，该平台将求职者的资料与他们具备良好条件且可能感兴趣的职位空缺进行匹配。求职者对某一职位的兴趣是由以下几个因素决定的，包括薪资和福利。Ann使用求职者的简历、自我报告的人口统计数据和工作经历作为输入。按照公司的最佳实践，她首先将数据集分为训练集、验证集和测试集。然后，Ann使用pandas、scikit-learn和相应的数据转换器来探索数据，并实现数据预处理、模型选择、调优和验证。Ann通过计算数据集中特征的值分布和相关性开始预处理，并识别缺失值。她将使用scikit-learn中的默认imputation方法来填充这些内容，用该特征的模式值替换缺失的值。最后，Ann实现了模型选择和超参数调优，选择了具有足够精度的分类器。

当Ann更仔细地考虑分类器的表现时，她观察到预测精度的差异:⁷对于年龄较大的求职者来说，准确性较低，因为他们经常被匹配到比他们预期的薪水较低的职位。Ann现在需要理解为什么会出现这种情况，是否她在管道建设过程中的任何技术选择导致了这种差异，以及她可以做些什么来减轻这种影响。

原来这个问题是由数据分布的错误-对预测很重要的特征值的变化，这是预处理过程中技术选择的结果。这里的特征是工作经验的年数。引入这个bug是因为Ann假设这个特性的值是随机缺失因为她选择了模式归因，这与这个假设是一致的。事实上，年龄较大的求职者更容易忽略价值观:他们不会在“经验年”中输入高值，因为他们可能害怕年龄歧视。这一观察结果与一种直觉是一致的，即个人更有可能隐瞒可能不利于他们的信息。综合来看，这两个因素导致估算的经验年数偏低，导致了较低的薪资要求，对年长求职者的影响大于年轻求职者。

数据分发bug很难捕捉。在某种程度上，这是因为不同的管道步骤是使用不同的库和抽象实现的，在数据准备期间，数据表示形式经常从关系数据变为矩阵。此外，预处理经常将对表格数据的关系操作与估计器/变压器管道结合起来，这是一种可组合的、嵌套的抽象，用于组合对数组数据的操作，它源自scikit-learn，并以一种难以调试的方式通过嵌套函数调用执行。

Grafberger等人设计并实现了mlinspect，¹⁵轻量级的数据分发调试器，支持对数据密集型管道的自动检查，以检测意外引入的统计偏差，并检测最佳实践。mlinspect库从使用流行库(如pandas和scikit-learn)的管道中提取逻辑查询计划(建模为预处理运算符的dag)，并结合关系操作和估计器/转换器管道。该库自动检测代码并跟踪操作符对属性的影响，例如数据中敏感组的分布。我们希望在共同开发数据科学最佳实践和支持其广泛采用的工具方面，Mlinspect是必要的第一步。还有很多重要的工作要做，让我们开始把数据当作软件开发中的一等公民。

回到顶部

监督广告

我们正处于监管adr使用的全球趋势之中。在欧盟，《通用数据保护条例》(GDPR)为个人数据的收集、处理和移动提供了保护，并广泛适用于政府和私营部门实体对此类数据的使用。欧盟以外的几个国家(尤其是日本和巴西)的监管活动与GDPR密切一致。在美国，许多大城市、少数几个州和联邦政府正在建立工作组，并发布有关负责任的开发和技术使用的指导方针。GDPR专注于数据权利和数据驱动决策，毫无疑问，它是迄今为止最重要的技术法规，是欧盟和世界范围内监督数据收集和使用的“公分母”。因此，我们将在本节的其余部分中深入讨论GDPR。

GDPR旨在保护自然人在其个人数据如何被处理、移动和交换方面的权利和自由(第一条)。GDPR的范围很广，适用于“全部或部分通过自动化手段处理个人数据”(第二条)，无论是在私营部门还是公共部门。个人资料泛指与已识别或可识别的自然人有关的任何资料，称为数据对象(第4条)GDPR旨在让数据主体了解并控制其个人数据的收集和处理。为回应“知情权”，提供这样的洞察需要可解释性的技术方法，在下一节“对一系列利益相关者的可解释性”中讨论。在即将到来的“删除个人数据”一节中，我们还将强调删除权，作为提出具体数据管理挑战的监管要求的一个代表性例子。更多的细节可以在Abitebout和Stoyanovich上找到。¹

正如我们在本文中所做的那样，我们强调ADS监督这一广泛主题中的具体挑战，并概述解决这些挑战的技术工作的有前途的方向。重要的是要记住ADS的监管不会承认一个纯粹的技术解决方案。相反，我们希望技术干预将成为可靠的分布式基础设施的一部分，其中多个利益相关者团体参与ADS的设计、开发和监督。

对一系列涉众的可解释性。可解释性——允许人们理解ads的过程和决策——对负责任地使用这些系统至关重要。可解释性对不同的利益相关者意味着不同的东西，但其共同的主题是，它允许人们，包括软件开发人员、决策者、审计人员、监管人员、受ADS决策影响的个人，以及一般公众成员，通过接受或挑战算法的决定来行使代理，并在决策者的情况下，为这些决定承担责任。

可解释性的基础是使计算过程和它所作用的数据之间的相互作用变得明确。当ADS被询问是否存在偏见和歧视时，以及当它被要求解释影响个人的算法决策时，理解代码和数据是如何交互的都很重要。

为了满足不同利益相关者的可解释性需求，最近的几个项目一直在开发基于营养标签概念的工具——这与食品行业类似，在食品行业，简单、标准的标签传递有关成分和生产过程的信息。如果不建立化学实验室，食品消费者就无法获得这些信息。同样，受ADS决策影响的数据产品的消费者或个人也不能期望重现数据收集和计算过程。这些项目包括数据集营养标签，¹⁸数据表的数据集,¹³模型卡片,²⁵和排名的事实,³⁹它们都使用特定类型的元数据来支持可解释性。图4提供一个营养标签的例子;它展示了排名事实³⁹解释计算机科学部门的排名。

图4。为CS部门的数据集排序事实。

在大部分工作中，营养标签都是手工构建的，它们描述了数据生命周期中的单个组件，通常是一个数据集或一个模型。然而，为了广泛适用，并忠实地代表计算过程和它所起作用的数据，营养标签应该产生自动或半自动地作为一个副作用的计算过程本身，体现的范式通过设计可解释性。³⁶这是一个令人兴奋的负责任的数据管理挑战。

几十年来，数据管理社区一直在研究元数据和来源的系统和标准。¹⁷这包括细粒度来源方面的工作，其目标是捕获与数据产品相关的元数据，并通过一系列转换传播它，解释其来源和派生历史，并帮助回答有关计算过程的健壮性及其结果的可信性的问题。现在有机会重新审视这些见解，并扩展它们以支持不同涉众的可解释性需求，包括技术上的和非技术上的。

删除个人资料。被遗忘的权利最初是由个人的一种愿望所激发的，即不要永远被他们过去所做的事情所污名化。在诸如色情报复等卑鄙社会现象的压力下，它于2006年在阿根廷变成了法律，此后在欧盟，作为GDPR(第17条)的一部分，声明数据主体有权要求及时删除他们的个人数据。

与数据管理界明显相关的一个重要技术问题是，在明确设计为积累数据的系统中删除信息。使数据处理系统符合gdp标准已被认为是数据管理界的主要研究挑战之一。³⁵高效删除的需求与数据管理系统的典型需求形成了鲜明的对比，需要对原语进行大量的重新思考和重新设计，例如用高效的删除操作增强基本数据结构。^30.

数据删除必须是永久性和深层次的，因为它的影响必须通过数据依赖关系传播。首先，很难保证每条被删除数据的所有副本实际上都已被删除。此外，当删除某些数据时，剩余的数据库可能会变得不一致，例如，可能包括悬空指针。此外，生产系统通常不包括强大的来源机制，因此它们没有方法跟踪任意数据项(要删除的数据项)的使用，并推断派生数据产品中对该数据项的依赖关系。尽管多年来数据管理社区的大部分注意力都集中在对来源的跟踪和推理上，主要是在关系上下文和工作流中(参见Herschel et al.;¹⁷就最近的一项调查而言)，仍有重要的工作要做，以使这些方法切实可行和足够普遍，以适应目前的法律要求。

最近才进入学术界关注的一个重要方向是确定删除对下游过程的影响，这些过程不是纯粹的关系，而是包括其他类型的数据分析任务，如数据挖掘或预测分析。最近的研究^14，31他认为，仅仅从数据库等主要数据存储中删除个人用户数据是不够的，但以存储数据为基础训练的机器学习模型也受该规定的约束。这一观点得到了《GDPR》第75段的支持:“自然人权利和自由的风险……可能来自个人数据处理……在个人方面进行评估时，特别是分析或预测有关工作表现、经济状况、健康、个人偏好或兴趣、可靠性或行为、地点或活动的方面。”机器学习社区一直在研究这个问题机器忘却。^6，14给定一个模型、它的训练数据和一组要删除/取消学习的用户数据，社区提出了有效的方法来加速模型的再训练。然而，这些方法忽略了生产设置的复杂性所带来的限制(例如重新部署成本)，因此很难集成到真实的ML应用程序中。³²

我们必须学会走出我们的工程舒适区，并开始在价值观和信仰方面进行推理。

删除请求也可能与其他法律相冲突，例如要求将某些事务数据保留一段时间或要求容错和可恢复性。了解删除请求对我们提供系统弹性和性能保证的能力的影响，并为实际使用开发适当的原语和协议，是数据管理社区采取行动的另一个呼吁。

回到顶部

结论

在本文中，我们提出了数据管理研究界在负责任的ads设计、开发、使用和监督中可以发挥的作用的观点。我们的讨论以自动化招聘工具为基础，这是一个具体的用例，让我们有充分的机会欣赏数据科学和人工智能在一个重要领域的潜在好处，并了解伦理和法律风险。

重要的一点是，我们不能完全自动化责任。虽然执行某些任务的职责，比如法律合规，原则上可以分配给算法，但ADS所做决策的责任总是由一个人承担。这个人可能是决策者或管理者，商业领袖或软件开发人员。出于这个原因，我们认为我们作为研究人员的角色是帮助构建“向人们揭示旋钮”或责任的系统。

我们这些在学术界工作的人还有一项额外的责任，就是让学生了解他们所开发的技术的社会影响。典型的学生被驱使去发展技术技能，并有工程师的愿望去构建有用的工件，例如低错误率的分类算法。他们也越来越意识到，历史上的歧视可以在技术系统的帮助下得到加强、放大和合法化。我们的学生很快就会成为实习数据科学家，影响科技公司如何影响社会。作为教育工作者，我们有责任让他们具备提出和回答关于选择数据集、模型或指标的困难问题的技能。让我们派往世界的学生理解负责任的数据科学是至关重要的。

为此，我们正在开发负责任的数据科学的教育材料和教学课程。H.V. Jagadish于2015年在EdX平台上推出了第一款数据科学伦理MOOC。这门课程已经被移植到Coursera和FutureLearn，在世界各地有成千上万的学生学习。个人视频根据创作共用协议获得许可，并可在适当的情况下自由纳入其他课程。Julia Stoyanovich教授负责任的数据科学，²⁴所有资料都公开在网上。这些课程附有由法拉·阿里夫·汗(Falaah Arif Khan)领导编写的连环漫画书作为补充读物。

在一项课前调查中，针对“简要陈述你对数据科学和人工智能在社会中作用的看法”的提示，一名学生写道:“这是我们无法避免的事情，因此不应该害怕。我很高兴，作为一名数据科学研究员，我有更多的机会，也有更多的责任，在一个更光明的目标下定义和开发这个‘怪物’。”另一名学生回答说:“数据科学(DS)是一个强大的工具，有能力在许多不同的环境中使用。作为一名负责任的公民，我们必须意识到DS/AI决策的后果，并适当地应对可能伤害我们自己或他人的情况。”

回到顶部

致谢

这项工作部分得到了美国国家科学基金会(NSF)资助No. 1934464, 1934565,1934405, 1926250,1741022,1740996, 1916505，由微软和阿霍德·德尔海兹(Ahold Delhaize)支持。所有内容都代表作者的观点，并不一定是由他们各自的雇主或赞助商所分享或认可的。

回到顶部

参考文献

1.abiteoul, S.和Stoyanovich, J.透明，公平，数据保护，中立性:面对新法规的数据管理挑战。J.数据和信息质量， 3(2019)， 15:1-15:9。

2.Asudeh, A.， Jin, Z.和Jagadish, H.V.评估和修正给定数据集的覆盖率。在35^th数据工程国际会议(2019年4月),554 - 565。

3.Baeza-Yates, R. Bias在网上。ACM的通信61， 6(2018)， 54-61。

4.Biessmann, F.， Salinas, D.， Schelter, S.， Schmidt, P.和Lange, D.深度学习用于非数值数据表中的缺失值估算。在27年的会议程序^thACM实习生。信息和知识管理(2018), 2017 - 2025。

5.Bogen (M.)和Rieke (A.)需要帮助:对招聘算法、公平性和偏见的研究。好转(2018)。

6.刘志强，刘志强，刘志强。增量和递减支持向量机学习。NeurIPS(2001), 409 - 415。

7.为什么我的分类器是歧视性的?S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi和R. Garnett，编辑。在神经信息处理系统进展31:2018年神经信息处理系统年会, 3543 - 3554。

8.Chouldechova, A.和Roth, A.机器学习中的公平前沿。ACM的通信63， 5(2020)， 82-89。

9.去边缘化种族和性别的交叉:黑人女权主义对反歧视主义、女权主义理论和反种族主义政治的批判。芝加哥大学法律论坛(1989), 139 - 167。

10.Datta, A.， Sen, S.和Zick, Y.通过量化输入影响的算法透明度:学习系统的理论和实验。在IEEE安全与隐私研讨会(2016年5月),598 - 617。

11.Friedler, S.， Scheidegger, C.和Venkatasubramanian, S.公平的(不)可能性:不同的价值体系需要不同的公平决策机制。ACM通信64， 4(2021)， 136-143。

12.Friedman, B.和Nissenbaum, H. Bias在计算机系统中的研究。美国计算机学会信息系统学报， 3(1996)， 330-347。

13.Gebru, T.， Morgenstern, J.， Vecchione, B.， Vaughan, J.， Wallach, H.， Daumé III, H.，和Crawford, K.数据集的数据表。相关系数(2018), abs / 1803.09010。

14.Ginart, A.， Guan, M.， Valiant, G.和Zou, J.让AI忘记你:机器学习中的数据删除。在NeurIPS(2019), 3513 - 3526。

15.Grafberger, S.， Stoyanovich, J.和Schelter, S.本地机器学习管道中数据预处理的轻量级检查。在11^th关于创新数据系统的公告。研究在线程序(2021年1月),http://www.cidrdb.org．

16.Guidotti, R.， Monreale, A.， Ruggieri, S.， Turini, F.， Giannotti, F.和Pedreschi, D.解释黑箱模型的方法的调查。ACM计算调查51， 5(2019)， 93:1-93:42。

17.赫歇尔，M.， Diestelkämper, R.，和本拉马尔，H.。关于起源的调查:为什么?什么形式?从什么?VLDB日报》26日， 6(2017)， 881-906。

18.Holland, S.， Hosny, A.， Newman, S.， Joseph, J.和Chmielinski, K.数据集营养标签:驱动更高数据质量标准的框架。相关系数(2018), abs / 1805.03677。

19.Jagadish, H.V, Gehrke, J.， Labrinidis, A.， Papakonstantinou, Y.， Patel, J.， Ramakrishnan, R.和Shahabi, C.大数据及其技术挑战。ACM的通信， 7(2014)， 86-94。

20.J. Kappelhof, J.少数民族调查研究和调查数据的质量。在实践中的总测量误差威利(2017)。

21.Kilbertus, N.， Carulla, M.， Parascandolo, G.， Hardt, M.， Janzing, D.，和Schölkopf, B.避免通过因果推理的歧视。在神经信息处理系统研究进展(2017), 656 - 666。

22.M. Kusner, Loftus, J.， Russell, C.和Silva, R.反事实的公平。I. Guyon, U. von Luxburg, S. Bengio, H.M. Wallach, R. Fergus, S. Vishwanathan和R. Garnett，编辑，In神经信息处理系统研究进展(2017), 4066 - 4076。

23.Lehr, D.和Ohm, P.玩弄数据:关于机器学习，法律学者应该学习什么。加州大学戴维斯分校法律评论， 2(2017)， 653-717。

24.Lewis, A.和Stoyanovich, J.教授负责任的数据科学。实习生。人工智能在教育中的地位(2021)。

25.Mitchell, M.等人。模型卡用于模型报告。在2019年公平、问责和透明度会议纪要, 220 - 229。

26.Olteanu, A.， Castillo, C.， Diaz, F.，和Kiciman, E.社会数据:偏见，方法陷阱和伦理边界。前沿大数据213(2019)。

27.Rabanser, S.， Günnemann, S.和Lipton, Z.失败:检测数据集转移方法的实证研究。H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox和R. Gannett，编辑。在神经信息处理系统研究进展(2019年12月),页1394 - 1406。

28.SAT分数的种族差距凸显了不平等，阻碍了向上流动。布鲁金斯学会(2017),https://www.brookings.edu/research/race-gaps-in-sat-scores-highlight-inequality-and-hinder-upward-mobility．

29.Salimi, B.， Rodriguez, L.， Howe, B.和Suciu, D.干涉公平:算法公平的因果数据库修复。P.A. Boncz, S. Manegold, A. Ailamaki, A. Deshpande和T. Kraska，编辑。在2019年实习生论文集。关于数据管理的确认, 793 - 810。

30.S. Sarkar, T. Papon, T. Staratzis, D. and Athanassoulis, M. Lethe:一个可调的删除感知LSM引擎。在2020年实习生会议记录。关于数据管理的确认。

31.Schelter, S。“健忘症”——一种可以很快忘记用户数据的机器学习模型。关于创新数据系统研究的文件, 2020年。

32.Schelter, S.， Grafberger, S.和Dunning, T. HedgeCut:维护随机树以实现低延迟的机器取消学习。在2021年实习生会议记录。关于数据管理的确认。

33.Schelter, S.和Stoyanovich, J.驯服机器学习管道中的技术偏见。数据工程学报4(2020)。

34.Selbst, A.大数据监管的不同影响。佐治亚法律评论52109(2017)。

35.Shastri, S.， Banakar, V.， Wasserman, M.， Kumar, A.和Chidambaram, V.理解和基准测试GDPR对数据库系统的影响。PVLDB(2020)。

36.Stoyanovich, J.和Howe, B.数据和模型的营养标签。IEEE数据工程通报， 3(2019)， 13-23。

37.Stoyanovich, J.， Howe, B.和Jagadish, H.V.负责的数据管理。在VLDB基金论文集， 12(2020)， 3474-3488。

38.Yang K.， Loftus, J.和Stoyanovich, J.因果交叉和公平排名。编辑K. Ligett和S. Gupta。在2^nd负责任计算基础研讨会，第192卷LIPICS, Schloss Dagstuhl-Leibniz信息学中心(2021年6月),7:1-7:20。

39.Yang, K.， Stoyanovich, J.， Asudeh, A.， Howe, B.， Jagadish, H.V.和Miklau, G.营养标签的排名。G. Das, C. Jermaine, P. Bernstein，编辑。在2018年实习生论文集。关于数据管理的确认, 1773 - 1776。

40.Zehlike, M.， Yang, K.和Stoyanovich, J.排名的公平性:一项调查。相关系数(2021), abs / 2103.14000。

回到顶部

作者

茱莉亚Stoyanovich（stoyanovich@nyu.edu)是美国纽约大学的副教授。

哔叽Abiteboul是Inria的研究员，École Normale Supérieure，法国巴黎。

比尔豪是美国华盛顿州西雅图华盛顿大学的副教授。

H.V. Jagadish是美国密歇根州安阿伯市密歇根大学的教授。

塞巴斯蒂安Schelter是荷兰阿姆斯特丹阿姆斯特丹大学的助理教授。

回到顶部

脚注

一个。https://www.crystalknows.com

b。https://www.hirevue.com

c。https://www.pymetrics.ai

d。https://www.industryarc.com/Report/19231/artificial-intelligence-in-recruitmentmarket.html

e。https://www1.nyc.gov/site/adstaskforce/index.page

如果您不是为了盈利或商业利益而制作或分发本作品的部分或全部，并在第一页注明本通知和完整引用，则允许您免费制作本作品的部分或全部数字或纸质副本，供个人或课堂使用。本作品的组成部分必须由ACM以外的其他人享有版权。信用文摘是允许的。以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org或传真(212)869-0481。

没有发现记录

负责数据管理

关键的见解

关于偏见

管理ADS数据生命周期

监督广告

结论

致谢

参考文献

作者

脚注

文章内容:

全球芯片短缺的最新担忧:用于芯片制造的芯片太少

离开疯狂的道路

马斯克收购推特不是为了言论自由