ACM

ACM通信

的观点

数据科学与法律相遇

作者:Shlomi Hod, Karni Chagal-Feferkorn, Niva Elkin-Koren, Avigdor Gal
ACM通信，2022年2月，第65卷第2期，35-39页
10.1145 / 3506575
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享在黑客新闻上分享在推特上分享在Facebook上分享

“数据”和“法律”的模式文本 — 图片来源:Andrij Borys Associates

一家新的社交媒体平台的法律顾问要求数据科学团队确保该系统在删除煽动性内容的需要和言论自由之间取得适当的平衡。在一次状态会议上，该团队高兴地报告说，他们的算法成功删除了90%的煽动性内容，只有20%的被删除内容是非煽动性的。然而，在检查几十个样本时，法律顾问意外地发现，明显不具煽动性的内容已被删除。“算法不管用!”她想。“任何人都可以看到，被删除的内容不可能是煽动!他们取得了怎样的平衡?”为了理清头绪，团队负责人问律师是否希望减少可删除的非煽动性内容的比例，律师给出了肯定的回答。该团队选择了另一个分类阈值，自豪地报告说，删除的内容中只有5%而不是20%是无煽动性的，代价是删除有毒内容的成功率降低到70%。法律顾问仍然很困惑，不知道哪里出了问题:这个系统现在不仅删除了明显没有煽动性的内容，而且也没有删除明显煽动性的内容。经过几轮令人沮丧的谈判，新的见解出现了:法律顾问学会了内在的精确-召回权衡。 In addition, the team leader realized that the definition of inciting content that was used in the process of labeling the training data was too simplistic. The legal counsel could have helped clarify the complexities of this concept in alignment with the law. The team leader and the counsel regretted not working together on the project from day one. As it turns out, both were using the same words, but apparently, much of what they meant has been lost in translation.

虽然数据科学家和律师过去都参与过计算机系统的设计，但目前的人工智能系统需要更密切的合作，并更好地了解彼此的领域。²人工智能系统的日益普及，以及它们对我们日常生活方方面面的日益影响，使得人们迫切需要人工智能系统是“负责任的”，并融入了公平、问责和隐私等重要的社会价值观。我们相信，为了增加人工智能系统“负责任”的可能性，数据科学家和律师之间需要进行有效的多学科对话。首先，它将有助于清楚地确定人工智能系统负责的含义。此外，它将有助于这两个学科发现有关的技术、伦理和法律问题，并在系统设计阶段的早期共同取得更好的结果。

我们设计了一门关于负责任的人工智能、法律、伦理与社会的课程，帮助开展有效的多学科对话。我们使用的新方法旨在建立数据科学联合团队之间的协作技能^一个通过让他们共同解决现实世界AI挑战的问题，如责任与责任、歧视与平等、透明度与隐私。关于学习目标，请参阅这里的第一个侧栏。

在计算机(和数据)科学教学大纲中引入法律或伦理研究的想法并不新鲜。近年来，技术伦理模块的数量有所增加。其中，有些是作为现有课程的嵌入单元，而不是单独的课程，^{4，6，7，11，16}还有一些课程是由哲学或信息科学(而非计算机或数据科学)背景的教师提供的。此外，据我们所知，许多课程的性质是基于法律、伦理和STS(科学、技术和社会)的见解，缺乏技术活动。最后，还有其他专门为其他学科的学生开设的课程，比如哲学。

我们有意选择为数据科学家和律师设计一门课程(未来可能会重新考虑这个选择)。通过这样做，我们瞄准了两个最可能在“现实世界”中相遇并一起工作的主要职业。我们的方法是基于一个独立的课程设计，但我们相信核心计算课程中集成的伦理模块可以，甚至应该共存。为了实现我们的目标，一个独立的课程似乎是一个可行的和适合的多学科设置的多元化设计:学生，教师和教学。最重要的是，根据我们的经验，这种不同的设置需要在参与者之间建立信任和共享语言，而通过独立课程的时间、连续性和强度，可以更好地实现这一点。

为了增加人工智能系统“负责任”的可能性，数据科学家和律师之间需要进行有效的多学科对话。

该课程的第一次迭代包括6节4小时的课程，于2020年5月以在线形式向每个学科(数据科学和法律)的约20名学生授课。2021年春季，康奈尔理工大学、特拉维夫大学和Technion联合开设了9节课的扩展版课程，有40名学生。2022年3月，该课程的第三次迭代将提供给来自波士顿大学、特拉维夫大学、Technion和博科尼大学的法律和数据科学学生;这次是8次会议的形式。在这一观点中，我们基于已经发生的两次课程迭代深入描述了我们的教学原则和课程结构。

回到顶部

教学原则

课程的三个主要学习目标，即实现学生之间的多学科对话，获得负责任AI的素养，培养学生的职业责任感，是完全不同的。第二和第三个学习目标(负责任的人工智能素养和职业责任)是基于学习新知识和技能的“经典”学术目标，而第一个目标(多学科对话)则是截然不同和新颖的，因为它专注于建立两个不同职业之间的沟通和合作。

实现多学科对话学习目标。在数据科学家和律师之间“架起一座桥梁”并不容易。数据科学和法律是需要多年学习和培训的学科。除非两方面都有知识，否则在设计新系统时，任何一方都不能站在另一方的立场上，并真正理解法律或技术限制。习惯了与同行讨论专业问题，有时又厌恶技术(律师)或法律(数据科学家)，参与多学科对话的实践可能很少，也很难发起。

为了应对这些挑战，我们通过两项原则实现了多学科对话的第一个学习目标:

学生和教师学科背景的混合:课程采用多教师教学;员工则由法律和数据科学专业的学生组成。
课堂学习活动的性质:学习活动旨在促进多学科的对话(见侧栏“促进多学科对话的方法工具示例例如这些原则在实践中是如何体现的)。

课程是根据每个学科的特色教学法设计的，即一个专业的普遍做法和教学风格。¹⁵法律专业的学生熟悉具体情况下的案例研究，提出需要回答的法律问题。数据科学专业的学生对数据的迭代和交互研究感到满意。

正如在现实场景中一样，这些任务被设计成只有通过共同努力才能解决。因此，混合学科的团队合作是必然的。有些课程涉及对抗性设置，比如潜在的诉讼，学生团队作为诉讼的不同当事人。这样的竞争环境激励了学生们在一个有趣的环境中合作。确保团队之间不互相评价和评判，避免不健康的竞争。例如，在我们的第一节课中，在处理自动驾驶汽车的责任时，关于故障分配的法律争论需要对一个交通标志识别的机器学习模型进行技术审计，以发现该系统是否在所有天气条件下都得到了充分的训练。

总体而言，课程设计采用了挑战学习、主动学习、混合学科团队合作的方式。这些原则不仅支持我们的对话方式，而且基于我们从学习科学中对循证教育的了解。¹²

实现负责任的AI素养学习目标。多学科对话不仅是目的本身，也是实现其他目标、特殊性、负责任的人工智能学习目标的手段。近年来，人们可以观察到负责任的AI研究社区如何^b经过一系列的贡献和他们的批评，来自不同的学科。辩证法的过程推动着这个领域向前发展，我们设计了我们的学习活动来模拟课堂上的这种动态。¹法律专业的学生是数据科学专业的学生，反之亦然。

例如，我们的第二节课讨论了人力资源自动化决策中的歧视问题，解决了负责任人工智能的最大挑战之一，即以一种适用于人工智能系统的方式捕捉公平的概念。^3.一般来说，数据科学和计算倾向于强调具体和“干脆利落”的定义，而法律定义总是受制于解释，让位于多重含义。^8，13在我们的课堂上，数据科学专业的学生提出了各种植根于机器学习模型评估的定义(如假阳性率相等)，而法学专业的学生提出了其他定义(如反事实性，“如果个体的敏感属性不同怎么办”)。学生们共同得出的结论是，仅仅将公平的概念局限于可测量和定量的术语是远远不够的，因为公平有多个方面，而且还应该考虑到人类环境。¹⁴法律和数据科学学生之间有意进行的密集互动，让更深层次的多学科学习得以发生，并能很好地扩展，而在只有教员是多教师的环境中，这可能是不可能的。

实现专业责任学习目标。负责任的人工智能的多学科性质提出了与第三个课程目标有关的挑战，即塑造学生的专业责任。考虑到AI系统设计师的个人影响力不断增长，专业责任的重要性正在上升。

由法律或伦理专业人士教授的课程可能会让数据科学专业的学生感觉联系较少:如果为了解决职业责任问题需要进行法律或哲学培训，那么数据科学专业的学生可能会倾向于“把它留给律师”来处理(反之亦然)。⁹为了将该学科定位为学生学科的一个组成部分，并让他们感到专业的联系，由混合教师教授这门课程，对两种背景的学生，并使用混合签名教学法再次被证明是有效的。

回到顶部

课程结构与学生评价

这里讨论的教学原则指导我们设计每节课的形式和实际活动(参见侧栏“类格式”)。至于课程内容，我们面临的一个挑战是对什么是负责任的AI缺乏共识，这也反映在其他技术伦理课程的教学大纲中。^4，6，11因此，我们负责任的AI的“工作框架”是相当实际的表格)。我们选取了以下元素，它们出现在许多其他技术伦理课程中，也出现在各种组织发布的人工智能伦理守则和原则中:⁵鲁棒性;歧视和公平;透明度和explainability;和隐私。至于问责和治理，这自然是负责任AI的两个重要元素，它们不是整个课程的主题，而是贯穿整个课程的主题。我们认识到其他内容同样重要，可以选择作为课程的扩展版本。我们专门用一个类来集成所有四个元素，使用构建、破坏、修复方法(参见“促进多学科对话的方法工具示例”)。每个类还与案例研究发生的垂直或领域配对(参见表)，允许演示“负责任的AI”的背景。每个领域和案例研究都有自己的细微差别。在前五节课的每节课结束时，每个团队都提交了一份总结他们对案例研究分析的文章，将法律论证和数据科学研究结合在一起。

表1。2020年春季课程结构(首次提供)。

在他们的最终项目中，团队被要求开发一个新的案例研究，使用数据集和数据科学技术来演示关于负责任的人工智能、法律、道德和社会的法律困境。它的灵感来自于我们开发这门课程及其活动的多学科学习之旅。项目由工作人员指导，学生们在最后一堂课上展示它们。

与两个第一一致学习目标在美国，对这些团队的课堂作业和期末项目都进行了评估，评估标准有两个:学生在交付成果中整合法律和数据科学视角的程度;并应用负责任的AI知识和技能。这些标准遵循了我们课程的前提:负责任的AI分析或设计只有在整合(至少)两个角度时才能发生。学生们在完成课堂上的主要挑战时得到了口头的非正式指导和反馈，他们提交的作业也得到了书面反馈。

整体而言，学生对课程的印象是正面的。在一次公开讨论中，学生们觉得这门课很有挑战性，但也很有收获。一些学生提到，他们深受小组互动的影响。作为这些影响的一个轶事例子，一名法律系学生提到，她现在“到处都能看到模型”。对于2020年春季课程，我们用来评估课程的方法之一是结论性调查(35/44,80%回复率)。几乎所有回答调查的学生都表示，他们会在很大程度上或很大程度上向同学推荐这门课程(33/35,94%)。表2总结学生对课程是否达到2020年春季课程的学习目标的回答。在2019冠状病毒病前的时代，该课程最初计划亲自授课，但最终以虚拟方式授课，我们发现这种反馈非常令人鼓舞。

表2。对2020年春季课程调查结束后学生回复的描述性统计。

在开放反馈环节，学生们提到了多学科合作是最重要的组成部分，最常见的改进建议是降低课堂强度。

回到顶部

挑战和下一步

向数据科学和法律专业的学生开发和教授负责任的AI涉及多个挑战:一些来自课程的多学科性质，另一些来自负责任的AI主题，而另一些则表现为这两个方面的交叉。

首先，启动真正的对话是一项微妙的任务。我们的第一节课似乎是最难的。来自两个截然不同专业的学生发现，他们身处同一个团队，被要求共同应对一个多学科的挑战，尽管对大多数人来说，这是他们第一次与另一个学科进行专业对话。虽然与课程的其他部分相比，这个任务是为了“软入门”而设计的，但困惑甚至厌恶是不可避免的。虽然团队合作早在第一阶段就逐渐形成，但对其他学科的厌恶并没有很快消失。在我们的第二节课上，学生们代表一起算法歧视诉讼的不同方，一名数据科学专业的学生考虑退出这门课，因为他觉得无法像律师那样表达自己的想法，因此认为自己没什么可贡献的。在我们的第三节课上，学生们扮演监管者的角色，决定是否要求改变信用评分系统的可解释性。班上一位法律系的优等生对工作人员说，她从未感到如此沮丧，因为这是她第一次完全不懂任何东西，也不知道如何进行。虽然我们的教学原则为促进对话设置了环境，但这些原则自然需要时间让学生内化。因此，在即将推出的课程中，我们引入了一个新的第一课，其中的联合任务没有那么严格的纪律，但仍然遵循我们的教学原则。学生需要在人的价值和AI系统设计约束之间进行平衡。 Not only is this task designed to facilitate the first multidisciplinary teamwork encounter, it also demonstrates the breadth of Responsible AI issues that are covered by the course in general and during the first class in specifics.

第二，“负责任的人工智能”的概念正在演变。“负责任的人工智能”包括什么以及应该如何教授它，目前还没有明确的共识。我们必须为这门课程开发自己的工作框架，这个框架必须根据不断发展的研究和实践进行动态调整。同样，学生评估是另一个关键问题:什么是合格的负责任AI?

期待实现我们的变革理论，通过多学科对话的方式将负责任的人工智能集成到人工智能系统的生命周期中，该课程应大规模交付。因此，我们在知识共享许可下将课程材料作为开放教育资源发布https://teach.responsibly.ai)。这项工作包括建立一个教师社区，支持不同地点和文化的学院的情境化和本地化。该课程将作为一个现场环境来测试可以应用于其他环境的促进对话的方法，例如，作为政策制定过程的一部分。

回到顶部

参考文献

1.阿贝贝，R.等人。计算机在社会变革中的作用。在2020年公平、问责和透明度会议论文集。252 - 260。

2.巴洛卡斯，S.和博伊德，d.在实践中参与数据科学的伦理。Commun。ACM 60(2017年11月)，23-25。

3.Chouldechova, A.和Roth, A.机器学习中公平前沿的快照。Commun。ACM 63， 5(2020年5月)，82-89。

4.当我们教授技术伦理时，我们教的是什么?教学大纲分析。在51届会议记录^圣ACM计算机科学教育技术研讨会。289 - 295。

5.菲尔德，J.等。有原则的人工智能:在基于伦理和权利的人工智能原则方法方面达成共识。伯克曼克莱因中心研究出版2020-1(2020)。

6.加勒特，N.，比尔德，N.和费斯勒，C.“如果时间允许”:伦理在人工智能教育中的作用。在人工智能、伦理和社会AAAI/ACM会议论文集。(2020), 272 - 278。

7.Grosz, B.J.等。嵌入伦理:在计算机科学教育中整合伦理。Commun。ACM 62， 8(2019年8月)，54-61。

8.理解法律和法治:增强计算机科学课程的一个请求。Commun。ACM 645(2021年5月)，28-31。

9.谁应该教授计算机伦理和计算机与社会?计算机与社会， 2(1994)， 6-13。

10.Ruef, A.等。构建它，破坏它，修复它:竞争安全开发。在2016年计算机与通信安全ACM SIGSAC会议论文集。690 - 703。

11.萨尔茨，J.等。在机器学习课程中整合伦理。19 .美国计算机学会计算机教育汇刊， 4(2019)， 1-26。

12.索耶,上面《剑桥学习科学手册》剑桥大学出版社，2014。

13.Schauer F。遵守规则:法律和生活中基于规则的决策的哲学审视。克拉伦登出版社,1991年。

14.社会技术系统中的公平与抽象。在公平、问责和透明度问题会议论文集。(2019), 59 - 68。

15.舒尔曼，l。s。专业教育的标志。134代达罗斯， 3(2005)， 52-59。

16.教授负责任的数据科学:绘制新的教学领域。国际人工智能教育杂志(2021), 1 - 25。

回到顶部

作者

Shlomi煤斗（shlomi@bu.edu)是美国波士顿大学计算机科学博士研究生。

卡尼Chagal-Feferkorn（karni111@gmail.com)是加拿大渥太华大学法学院普通法系人工智能与监管博士后。

罢工Elkin-Koren（elkiniva@tauex.tau.ac.il)是以色列特拉维夫大学法学院的法学教授。

阿维格多·加（avigal@ie.technion.ac.il)是以色列以色列理工学院Benjamin and Florence数据科学免费讲座教授。

回到顶部

脚注

a.我们使用数据科学学生作为一个广义术语，指的是在相关学科，如数据科学、计算机科学和计算机工程，具有足够的机器学习背景和基本理解数据生命周期(如问题形成、数据收集和管理、分析、开发、可视化和部署)的学生。

b.有时被称为FATE(公平、责任、透明、道德)或类似的缩写。

作者感谢课程团队，我们2021年春季班的联合讲师Helen Nissenbaum，以及多年来的助教(按字母顺序排列)Alex Chapanin、Guy Berkenstadt、Hofit Wasserman Rozen、Margot Hanley、Nitay Calderon、Shir Lissak和Sivan shaachar。作者也感谢我们的学生的积极参与，参与和宝贵的反馈。盖尔还感谢本杰明和佛罗伦萨自由主席的支持。Chagal-Feferkorn感谢丰业银行基金对AI +社会倡议的支持。

回到顶部

栏:学习目标

这门课程围绕三个目标设计。课程结束时，学生将:

多学科的对话能够与来自其他学科的专业人员进行交流，识别术语和观点的意义上的差距，并开发一种共享的语言。
负责人工智能素养
1. 意识到人工智能对个人、群体、社会和人类的影响;进行利益相关者分析;并主动发现道德问题，观察意外后果和潜在危害。
2. 具备监督、审核和引导AI系统整个生命周期(设计、开发和部署)的入门知识和技能。
3. 能够找到并使用资源来实现上述所有目标。
职业责任迈出第一步，塑造他们作为专业人士的责任，并有动力采取行动。

回到顶部

边栏:促进多学科对话的方法工具示例

创造，破坏，修复(BiBiFi)在网络安全竞赛中采用的BiBiFi方法中，¹⁰团队根据模板和简短的提示设计(构建)一个AI系统。第一步(构建)的交付成果是根据数据科学项目的生命周期构造的设计文档。然后，另一个团队试图打破设计，从负责任的AI角度，整合课程中迄今所学的元素(例如，公平、责任、透明度和隐私)，以及其他视角，识别重要问题。最后，每个团队都有机会审查批评意见，并相应地修正其设计。这三个步骤都需要学生的专业知识，包括法律和数据科学。这种方法之所以强大，是因为它的结论阶段发生在三个步骤之后。参与者“后退一步”，反思他们的设计过程中“做了什么”和“如何做”，并从中汲取经验教训以供将来使用。我们将此方法应用到内容审核的集成类中。
概念征服该方法被格式化为请求-响应方案，其中一方请求另一方的规程提供概念定义和解释。该方法通过多学科项目的联合工作，协助参与者制定共同的术语。概念回答被格式化为Wiki中的一篇文章，这允许对链接的概念网络进行迭代和协作创作。文章应该非常简短和简洁，比术语表条目稍微详细一些。它不是百科全书式文章的替代品，如维基百科，而是目标是定位那些被认为是概念学科之外的读者。因此，除了定义本身之外，一个关键因素是概念对其他概念的定位。

回到顶部

栏:类格式

基于家庭阅读对课题的初步思考
关于课程特定主题的法律方面和技术方面的简短讲座
基于挑战的学习的主要活动:混合团队处理数据驱动的法律案例研究
演示、讨论和反馈
总结和外卖

版权归作者所有。
向所有者/作者请求(重新)发布权限

没有发现记录

数据科学与法律相遇

教学原则

课程结构与学生评价

挑战和下一步

参考文献

作者

脚注

栏:学习目标

边栏:促进多学科对话的方法工具示例

栏:类格式

文章内容:

来见见杰弗里吧，这个有着心形眼睛的粉色机器人在夏洛特送咖啡

民主党人可能会错过塑造加密监管的机会

软件架构决策:文化考虑