ACM

ACM通信

首页 / 杂志存档 / 2018年10月(第61卷10期) / 模型可解释性的神话 /全文

实践

模型可解释性的神话

扎卡里·利普顿著
ACM通信，2018年10月，第61卷第10期，第36-43页
10.1145 / 3233231
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit上分享在StumbleUpon上分享在黑客新闻上分享在推特上分享在Facebook上分享

模型可解释性的神话，说明 — 图片来源:Alicia Kubista / Andrij Borys Associates

有监督的机器学习模型拥有卓越的预测能力。但你能相信你的模型吗?它能在部署中工作吗?它还能告诉你关于这个世界的什么?模型不仅要好，而且要可解释，但解释的任务似乎还不够明确。学术文献为可解释性提供了多种多样的、有时不重叠的动机，并为呈现可解释性模型提供了无数的技术。尽管有这种模糊性，许多作者宣称他们的模型是可解释的公理，缺乏进一步的论证。问题是，目前还不清楚是什么共同特性将这些技术结合在一起。

本文试图对可解释性的论述进行提炼。首先，它检查了以前的论文的目标，解决可解释性，发现他们是多样化的，偶尔不一致。然后，它探索了模型属性和技术，认为授予可解释性，确定透明度为人类和事后解释作为竞争的概念。全文讨论了不同可解释性概念的可行性和可取性。这篇文章质疑了人们经常做出的断言，即线性模型是可解释的，而深度神经网络是不可解释的。

直到最近，人类在社会中还垄断着代理。如果你申请工作、贷款或保释，一个人决定了你的命运。如果你去医院，一个人会试图对你的疾病进行分类并建议治疗。对于诸如此类的结果性决策，您可能要求决策代理给出解释。

例如，如果您的贷款申请被拒绝，您可能想要了解代理的理由，以加强您的下一个申请。如果这个决定是基于一个有缺陷的前提，你可能会质疑这个前提，希望推翻这个决定。在医院里，医生的解释可能会让你了解自己的情况。

在社会背景下原因因为一个决定往往很重要。例如，故意造成死亡(谋杀)和无意(过失杀人)是不同的罪行。同样，基于(直接或间接)受保护特征(如种族)的雇佣决定也会影响其合法性。然而，今天的预测模型根本不具备推理能力。

在过去的20年里，机器学习(ML)的快速发展导致了自动决策过程的部署。在实际应用中，大多数基于ML的决策以以下方式工作:ML算法接受一些输入并预测相应的输出。例如，给定一组描述金融交易的属性，ML算法可以预测长期投资回报。给出CT扫描的图像，该算法可以指定扫描描述癌变肿瘤的概率。ML算法使用大量的(输入、输出)对，输出一个模型它可以预测与先前未见的输入相对应的输出。在形式上，研究人员称之为问题设置监督学习。然后，为了使决策完全自动化，将模型的输出输入到一些决策规则中。例如，垃圾邮件过滤器以编程方式丢弃预测为垃圾邮件的电子邮件，其置信度超过某个阈值。

因此，基于ml的系统不知道为什么给定的输入应该收到某个标签，只知道某些输入与该标签相关。例如，在一个数据集中，其中唯一的橙色对象是篮球，图像分类器可能会学习将所有的橙色对象分类为篮球。这个模型即使在拿出来的图像上也能达到很高的准确性，尽管它无法把握真正造成差异的差异。

随着ML渗透到诸如医学、刑事司法系统和金融市场等关键领域，人类无法理解这些模型似乎是有问题的。一些人建议模型的可解释性作为一种补救措施，但在学术文献中，很少有作者确切地阐明可解释性的含义或他们提出的解决方案如何有用。

尽管缺乏定义，越来越多的文献提出了据称可解释的算法。由此，你可以得出结论:的定义可解释性是全世界都同意的，但没有人费心把它写下来;或者这个术语可解释性定义不清，因此，关于各种模型的可解释性的主张显示出准科学的特征。对文献的调查表明是后者。研究可解释性的文献中提出的目标和方法都是不同的，这表明可解释性不是一个统一的概念，而是几个不同的概念，在取得任何进展之前必须解开它们。

本文的重点是监督学习，而不是其他ML范式，如强化学习和交互式学习。这一范围源于当前监督学习在现实应用中的首要地位，以及对线性模型可解释而深度神经网络不可解释这一普遍主张的兴趣。¹⁵为了获得概念上的清晰，考虑以下精炼的问题:什么是可解释性?为什么它很重要?

让我们先解决第二个问题。许多作者提出可解释性是产生信任的一种手段。^9，24这就引出了一个同样令人烦恼的认识论问题:什么是信任?它指的是对一个模型将表现良好的信念吗?信任是否需要对模型有低级的机械理解?或者信任是一个主观的概念?

其他作者认为，一个可解释的模型是可取的，因为它可能有助于揭示观察数据中的因果结构。¹的法律概念要求解释的权利为可解释性提供了另一个视角。最后，有时可解释性的目标可能只是从模型中获得更多有用的信息。

虽然讨论的需求或可解释性的目标是不同的，但它们通常涉及标准ML问题公式的情况，例如，在训练数据完全具有代表性的一组保留数据上最大限度地提高准确性，但与它们要解决的复杂的现实生活任务不完全匹配。考虑有纵向数据的医学研究。真正的目标可能是发现可以指导干预的潜在因果关系，就像吸烟和癌症一样。²⁹然而，大多数监督学习模型的优化目标仅仅是最小化错误，这一壮举可以通过纯相关的方式实现。

这种不匹配的另一个例子是，可用的培训数据不完美地代表可能的部署环境。真实的环境经常有变化的动态。想象一下为一个在线商店培训一个产品推荐员，在那里新产品会定期推出，顾客的喜好会随着时间的推移而变化。在更极端的情况下，基于ml的系统的操作可能会改变环境，使未来的预测失效。

什么是信任?仅仅是对一个模型会表现良好的信心吗?

在解决了可解释性的需求之后，本文考虑了模型的哪些属性可能使它们具有可解释性。一些论文将可解释性等同于可理解性或可理解性，¹⁶(也就是说，您可以掌握模型是如何工作的)。在这些论文中，有时称为可理解的模型透明的，而不可理解的模型被称为黑色盒子。但什么是透明度?你可以看看算法本身:它会收敛吗?它会产生唯一解吗?或者您可以查看它的参数:您理解每个参数代表什么吗?或者，您可以考虑模型的复杂性:它是否简单到可以由人一次性检查?

其他工作则研究了所谓的事后解释。这些解释可能解释了预测，但没有阐明模型工作的机制。例子包括人们产生的口头解释或用于分析深度神经网络的显著性图。因此，人类的决策可能会承认事后可解释性，尽管人类大脑的黑箱性质，揭示了两种流行的可解释性概念之间的矛盾。

回到顶部

可解释性研究的渴望

本节阐述了可解释性研究的各种需求。当监督学习的正式目标(测试集预测性能)与部署设置中的实际成本之间出现不匹配时，就会产生对可解释性的需求。

通常，评估指标只需要预测和基本事实标签。当涉众额外要求可解释性时，您可能会推断出无法以这种方式捕获的目标的存在。换句话说，因为大多数常见的监督学习评估指标只需要预测，加上基本事实，就可以得出一个分数，所以对解释的渴望表明，有时仅凭预测和根据预测计算的指标不足以表征模型。然后你应该问，这些其他的目标是什么?在什么情况下寻求这些目标?

通常，现实世界的目标很难编码为简单的数学函数。否则，它们可能被合并到目标函数中，问题就被认为解决了。例如，制定雇佣决策的算法应该同时优化生产力、伦理和合法性。但是如何编写一个度量道德或合法性的函数呢?当您希望对培训和部署环境之间的动态变化具有健壮性时，也会出现这个问题。

信任。一些作者认为可解释性是信任的先决条件。^9，23什么是信任?仅仅是对一个模型会表现良好的信心吗?如果是这样的话，一个足够精确的模型应该是值得信赖的，而可解释性就没有任何作用了。信任也可以从主观上加以定义。例如，一个人可能对一个被充分理解的模型感到更自在，即使这种理解没有明显的目的。或者，当培训和部署目标发生分歧时，信任可能表示对模型将相对于实际目标和场景执行良好的信心。

例如，考虑到越来越多地使用ML模型来预测犯罪率，以便分配警察。我们可以相信这个模型能做出准确的预测，但它不能解释训练数据中的种族偏见，也不能解释模型本身的影响，即通过对一些社区的过度监管，使监禁循环得以延续。

终端用户信任ML模型的另一种意义可能是他们愿意放弃对它的控制。通过这个镜头，你可能关心的不仅仅是多长时间一个模型是对的，但也对于哪些例子这是对的。如果模型倾向于只在那些人类也会犯错的输入类型上出错，因此在人类准确的时候通常是准确的，那么您可能会相信模型，因为没有任何放弃控制的预期成本。然而，如果一个模型倾向于对人类准确分类的输入出错，那么保持人类对算法的监督可能总是有好处的。

因果关系。尽管监督学习模型只是直接优化以建立关联，但研究人员经常使用它们来推断自然世界的属性。例如，一个简单的回归模型可能揭示沙利度胺的使用和出生缺陷之间有很强的关联，或者吸烟和肺癌之间有很强的关联。²⁹

监督学习算法学习到的关联不能保证反映因果关系。总有一些未被观察到的原因导致了两个相关的变量。然而，你可能希望，通过解释监督学习模型，你可以产生科学家随后可以测试的假设。例如，Liu等。¹⁴强调回归树和贝叶斯神经网络，表明这些模型是可解释的，因此能够更好地提供关于生理信号和情感状态之间的因果关系的线索。从观察数据中推断因果关系的任务已被广泛研究。²²然而，因果推理方法往往依赖于强大的假设，并没有被从业者广泛使用，特别是在大型、复杂的数据集上。

可转让性。通常，训练和测试数据是通过从相同分布中随机划分示例来选择的。然后，根据模型在训练数据和测试数据上的表现差距来判断模型的泛化误差。然而，人类表现出的泛化能力要强得多，能将学到的技能运用到不熟悉的环境中。ML算法已经用于这些情况，例如当环境是非平稳的时候。模型还被部署在使用它们可能改变环境的设置中，使其未来的预测失效。沿着这些思路，Caruana等人。^3.描述一个经过训练的预测肺炎死亡概率的模型，该模型将同时患有哮喘的患者的风险降低。据推测，哮喘预示着较低的死亡风险，因为这些患者接受了更积极的治疗。如果该模型被用于帮助分诊，这些患者可能会接受不那么积极的治疗，从而使该模型失效。

更糟糕的是，有些情况下，例如用于安全的机器学习，环境可能是积极对抗的。考虑到最近发现的卷积神经网络(CNNs)的易感性。cnn被用来对那些(对人来说)被不知不觉地干扰的图像进行错误分类。²⁶当然，这并不是传统意义上的过度拟合。该模型对训练数据的处理效果较好，对测试数据的分类具有较好的泛化能力。最重要的区别是，这些图像被以某种方式改变了，虽然对人类观察者来说很微妙，但模特在训练过程中从未遇到过。然而，这些都是人类不会犯的错误，最好模型也不要犯这些错误。监督学习模型已经经常受到这种对抗性操作的影响。考虑用于生成信用评级的模型;分数越高，个人偿还贷款的可能性就越大。根据FICO自己的技术报告，它使用逻辑回归训练信用模型，⁶特别是引用可解释性作为选择模型的动机。特征包括虚拟变量，表示帐户的平均存期、负债率、逾期付款的数量和良好信誉帐户的数量的分类值。

这些因素中有几个可以被寻求信贷者随意操纵。例如，在保持消费模式不变的情况下，只需定期要求增加信贷额度，就可以提高一个人的负债率。

类似地，当被接受的概率相当高时，简单地申请新账户可以增加账户的总数。事实上，FICO和Experian都承认信用评级是可以被操纵的，甚至提出了提高个人信用评级的指南。这些提高评级的策略可能会从根本上改变一个人偿还债务的潜在能力。事实上，个人积极和成功地利用评级系统可能会使其预测能力失效。

信息量。有时，决策理论被应用到监督模型的输出，以在现实世界中采取行动。然而，在另一种常见的使用范式中，被监督的模型被用来向人类决策者提供信息，Kim等人考虑了这种设置。¹¹和Huysmans等人。⁸虽然机器学习的目标可能是减少错误，但现实世界的目的是提供有用的信息。模型传递信息最明显的方式是通过它的输出。然而，我们可能希望通过探索模型已经提取的模式，我们可以向人类决策者传递额外的信息。

即使没有阐明模型的内部工作原理，一种解释也可能提供有用的信息。例如，诊断模型可以通过指向支持诊断决策的类似案例，为人类决策者提供直觉。在某些情况下，当真正的任务更接近于非监督学习时，就会训练监督学习模型。真正的目标可能是探索数据的底层结构，而标记目标只起到弱监督的作用。

做出公平和合乎道德的决策。目前，政治家、记者和研究人员都表示担心，必须做出解释，以评估算法自动产生的决策是否符合伦理标准。⁷累犯预测已经被用来决定释放和拘留谁，这引发了伦理问题。你怎么能确定预测没有种族歧视呢?传统的评估指标，如准确性或AUC(曲线下面积)，几乎不能保证基于ml的决策将表现为可接受的。因此，对公平的要求常常导致对可解释模型的要求。

回到顶部

可解释性的透明度概念

现在让我们考虑为赋予可解释性而提出的技术和模型属性。这些大致可分为两类。第一个问题与透明度有关(也就是说，模型如何工作?)第二种是事后解释(也就是说，模型还能告诉我什么?)

非正式地说，透明是不透明或“黑箱”的反义词。它意味着对模型工作机制的某种理解。这里在整个模型级别考虑透明度(simulatability)，在个别组件的层面，例如参数(可分解性)，在训练算法层面(算法的透明度）.

Simulatability。从最严格的意义上讲，如果一个人可以同时考虑整个模型，那么这个模型就可以被称为透明的。这个定义表明可解释模型是一个简单的模型。例如，要完全理解一个模型，一个人应该能够将输入数据与模型的参数结合起来，并以合理的时间步长进行每一次计算，以产生预测。这与通常的说法一致，即由套索回归产生的稀疏线性模型²⁷比在相同输入上学习到的密集线性模型更容易解释。Ribeiro等人。²³还要采用可解释性的概念，这表明可解释性模型是“可以很容易地通过可视化或文本工件呈现给用户”的模型。

应用单一预测的模型大小和计算量之间的权衡在不同的模型中是不同的。例如，在一些模型中，例如决策树，模型的大小(节点总数)可能比执行推断所需的时间(从根到叶的传递长度)增长得相当大。这表明可模拟性可以分为两种类型:一种基于模型的大小，另一种基于执行推断所需的计算。

确定了可模拟性的概念，用合理的是主观的。然而，显然，鉴于人类认知能力的有限性，这种模糊性可能只跨越几个数量级。在这种情况下，无论是线性模型、基于规则的系统，还是决策树，都不是本质上可解释的。足够高维的模型、笨拙的规则列表和深度决策树都可以被认为比相对紧凑的神经网络更不透明。

可分解性。透明度的第二个概念可能是模型输入、参数和计算的每个部分都有一个直观的解释。这符合Lou等人所描述的可解性属性。¹⁵例如，决策树中的每个节点可能对应于一个纯文本描述(例如，所有舒张压超过150的患者)。类似地，线性模型的参数可以描述为代表每个特征和标签之间的关联强度。

注意，可解释性的概念要求输入本身是可单独解释的，这就取消了一些具有高度工程化或匿名特征的模型的资格。虽然这种观念很流行，但不应该盲目接受。线性模型的权重可能看起来很直观，但在特征选择和预处理方面，它们可能很脆弱。例如，与流感风险和疫苗接种之间的关联相对应的系数可能是正的或负的，这取决于特征集是否包括老年人、婴儿或免疫缺陷的指标。

算法的透明度。最后一个透明度的概念可能适用于学习算法本身的级别。在线性模型的情况下，你可以理解误差曲面的形状。你可以证明，训练将收敛到一个唯一的解决方案，即使是对以前看不到的数据集。这可能会提供一些信心，使模型在需要对以前未见的数据进行编程再训练的在线设置中表现良好。另一方面，现代深度学习方法缺乏这种算法透明度。虽然神经网络的启发式优化程序非常强大，但我们不了解它们是如何工作的，目前也不能保证它们在处理新问题时具有先验性。然而，请注意，人类没有表现出任何形式的透明。

事后可解释性表示一种从已学习的模型中提取信息的独特方法。虽然事后解释通常不能准确说明模型是如何工作的，但它们可能为机器学习的从业者和最终用户提供有用的信息。一些常见的事后解释方法包括自然语言解释、学习过的表示或模型的可视化以及通过实例的解释(例如，一个特定的肿瘤被分类为恶性，因为对模型来说它看起来很像某些其他肿瘤)。

在某种程度上，我们可能认为人类是可以解释的，这是一种适用的可解释性。据我们所知，人类做出决定的过程和解释决定的过程可能是不同的。这种可解释性概念的一个优点是，不透明模型可以在事后被解释，而不牺牲预测性能。

文本的解释。人类经常用语言为决定辩护。类似地，可以训练一个模型来生成预测，而训练一个单独的模型(如循环神经网络语言模型)来生成解释。Krening等人在工作中采用了这种方法。¹²他们提出了一个系统，其中一个模型(强化学习者)选择行动来优化累积折现收益。他们训练另一个模型将一个模型的状态表示映射到策略的口头解释上。这些解释经过训练，以最大限度地提高人类玩家先前观察到的基本事实解释的可能性，可能不会忠实地描述代理的决定，无论它们看起来多么合理。这种方法与最近的神经图像字幕工作之间存在联系，在神经图像字幕工作中，由辨别CNN(为图像分类而训练的)学习的表示被第二个模型利用来生成字幕。这些说明可以看作是伴随分类的解释。

在研究推荐系统时，McAuley和Leskovec¹⁸用文本解释潜在因素模型的决策。他们的方法包括同时训练一个潜在因素模型用于评级预测和一个主题模型用于产品评论。在训练过程中，他们在减少评级预测的平方误差和增加复习文本的可能性之间交替进行。模型之间是相互联系的，因为它们使用归一化潜在因子作为主题分布。换句话说，潜在因素被正则化了，这样它们也很好地解释了综述文本中的主题分布。然后，作者通过检查主题中对应于其潜在因素的匹配成分的顶部词汇来解释用户-项目兼容性。请注意，通过呈现顶级词汇来解释主题模型的实践本身就是一种事后解释技术，这种技术已经引起了仔细研究。⁴此外，请注意，我们只讨论了解释的形式因素(即它由自然语言组成)，而没有讨论准确构成正确性的因素。到目前为止，文献一直在回避正确性的问题，有时通过接受对问题的主观看法和询问人们更喜欢什么来回避这个问题。

可视化。生成事后解释的另一种常见方法是呈现可视化，希望定性地确定模型学习了什么。一种流行的方法是用t-分布随机邻居嵌入(t-SNE)可视化高维分布式表示，²⁸一种渲染2D可视化的技术，在这种技术中，附近的数据点很可能出现在一起。

虽然事后解释通常不能准确说明模型是如何工作的，但它们可能为机器学习的从业者和最终用户提供有用的信息。

Mordvintsev等人。^20.尝试解释图像分类网络已经学习到什么，通过梯度下降改变输入，以增强从隐藏层中选择的某些节点的激活。对扰动输入的检查可以为模型了解到什么提供线索。可能是因为该模型是在大量动物图像上训练的，他们观察到增强某些节点会导致某些狗的脸出现在整个输入图像中。

在计算机视觉领域，人们已经探索了类似的方法来研究神经网络的不同层中保留了什么信息。玛亨德兰和吠陀第¹⁷将图像通过具有辨别性的CNN生成一个表示。然后，他们演示了通过对随机初始化像素执行梯度下降，即使从相当高级的表示(AlexNet的第6级)也可以以高保真度恢复原始图像。就像之前讨论文本一样，可视化的讨论集中在形式因素和吸引力上，但我们仍然缺乏一个严格的正确性标准。

当地的解释。虽然可能很难简洁地描述神经网络学习到的完整映射，但一些文献却专注于解释神经网络局部依赖于什么。深度神经网络的一种流行方法是计算显著图。通常情况下，它们取输出的梯度对应于正确的类相对于给定的输入向量。对于图像，这种渐变可以作为遮罩应用，突出显示输入的区域，如果更改，将最影响输出。^25，30.

请注意，这些关于模型所关注的东西的解释可能具有误导性。显著图只是局部解释。一旦你移动一个像素，你可能会得到一个非常不同的显著图。这与线性模型形成对比，线性模型模拟输入和输出之间的全局关系。

Ribeiro等人对局部解释做了另一个尝试。²³在这项工作中，作者通过学习一个单独的稀疏线性模型来解释第一个模型的决策，来解释在一个特定点附近的局部区域内的任何模型的决策。奇怪的是，尽管该方法比显著图更有吸引力，因为它能够为不可微模型提供解释，但当需要解释的模型实际上是可微的时，它更常被使用。在这种情况下，除了对梯度的噪声估计外，所提供的是什么仍然不清楚。本文用一组超像素来解释。这是否比普通渐变更有信息量，很大程度上取决于人们如何选择超像素。此外，如果没有严格定义的目标，谁又能说哪些超参数是正确的呢?

对扰动输入的检查可以为模型了解到什么提供线索。

举例解释。解释模型决策的一种事后机制可能是报告(除了预测)与模型最相似的其他例子，这是Caruana等人提出的一种方法。²训练一个深度神经网络或潜在变量模型的辨别任务不仅提供了预测，而且学习表示。然后，对于任何示例，除了生成预测之外，还可以使用隐藏层的激活来识别k-基于模型学习到的空间接近度的最近邻。这种用例子来解释的方法，在人类有时用类比来证明行为的正当性方面有先例。例如，医生经常参考案例研究来支持计划的治疗方案。

在神经网络文献中，Mikolov等人。¹⁹在训练word2vec模型后，使用这种方法来检查学习到的单词表示。他们的模型被训练为辨别的跳过克预测，以检查模型已经学习到哪些关系，它们列举了单词的最近邻居基于在潜在空间计算的距离。Kim等人。¹⁰Doshi-Velez等人。⁵已经在贝叶斯方法中做了相关的工作，研究了解释生成模型的基于案例的推理方法。

回到顶部

讨论

可解释性的概念似乎既重要又难以捉摸。在此之前，本文分析了可解释性的动机和研究界赋予其解释性的一些尝试。现在，让我们考虑一下这一分析的含义，并给出几个结论。

严格来说，线性模型并不比深度神经网络更容易解释。尽管这一主张经久不衰，但它的真值取决于所采用的可解释性的概念。就算法透明性而言，这种说法似乎没有争议，但鉴于高维或重度工程化的特征，线性模型分别失去了可模拟性或可分解性。

在选择线性模型和深度模型时，您必须经常在算法透明性和可分解性之间做出权衡。这是因为深度神经网络倾向于对原始或轻微处理的特征进行操作。所以，不出意外的话，这些特征在直觉上是有意义的，事后推理是合理的。然而，为了获得类似的性能，线性模型通常必须在大量手工设计的特性上运行。Lipton等人。¹³证明了这样一种情况下，线性模型可以接近循环神经网络(rnn)的性能，只以可分解性为代价。

对于某些事后解释，深度神经网络表现出明显的优势。他们学习可以可视化、语言化或用于聚类的丰富表示。考虑到对可解释性的渴望，线性模型似乎在研究自然世界方面有更好的记录，但似乎没有理论理由为什么这一定是这样。可以想象的是，事后解释在类似的情况下可能是有用的。

关于可解释性的声明必须是限定的。正如这里所演示的，术语可解释性并不是指一个整体的概念。为了有意义，任何关于可解释性的断言都应该固定一个特定的定义。如果模型满足某种形式的透明度，这可以直接显示出来。对于事后可解释性，这一领域的工作应确定明确的目标，并证明所提供的解释形式达到了这一目标。
在某些情况下，透明度可能与人工智能(AI)的更广泛目标不一致。一些反对黑箱算法的争论似乎排除了任何可以在复杂任务上与人类能力相匹配或超越人类能力的模型。作为一个具体的例子，通过开发透明的模型来建立与医生之间的信任的短期目标可能与改善医疗保健的长期目标发生冲突。在放弃对透明度的渴望是合理的预测能力时要小心，而不仅仅是对制度偏见对新方法的让步。
事后的解释可能会产生潜在的误导。要小心盲目地接受解释性的事后概念，特别是当优化以满足主观需求时。在这种情况下，人们可能会有意或无意地优化算法，以提供误导性但似乎合理的解释。众所周知，作为人类，我们会有这种行为，这在招聘实践和大学招生中得到了证明。一些记者和社会科学家已经证明，被归因于领导力或独创性等美德的接受决定往往掩盖了种族或性别歧视。²¹在急于让人们接受机器学习并模仿人类智能的过程中，我们都应该小心，不要大规模复制病态行为。

回到顶部

未来的工作

未来的工作有几个很有前途的方向。首先，对于某些问题，通过开发更丰富的损失函数和性能指标，可以缓解现实生活和机器学习目标之间的差异。这一方向的例子包括对稀疏诱导正则化子和代价敏感学习的研究。其次，这种分析可以扩展到其他ML范式，如强化学习。强化学习者可以通过直接建模模型与环境之间的交互来解决可解释性研究的一些(但不是全部)目标。然而，这种能力可能以允许模型在世界上进行试验为代价，从而产生实际后果。

值得注意的是，强化学习者能够学习到他们的行为和现实世界影响之间的因果关系。然而，与监督学习一样，强化学习依赖于定义良好的标量目标。对于公平性等问题，我们很难用语言准确地定义成功，ML范式的转变不太可能消除我们面临的问题。

参考文献

1.Athey和Imbens, G.W.机器学习方法2015;https://arxiv.org/abs/1504.01132v1．

2.Caruana, R.，袋鼠，H.， Dionisio, J. D.， Sinha, U.和Johnson, D.非案例学习方法的案例解释。在美国的议事录。医疗信息。Assoc。计算机协会。， 1999, 12215。

3.Caruana, R, Lou, Y, Gehrke, J, Koch, P, Sturm, m和Elhadad, N.卫生保健的可理解模型:预测肺炎风险和医院30天再入院。在廿一年会议记录^圣SIGKDD实习生。知识发现与数据挖掘， 2017, 17211730。

4.张杰，格瑞斯，王c，博伊德-格雷伯，j.l.，布莱，D.M. 2009。阅读茶叶:人类如何解释主题模型。在二十二届会议的会议记录^nd实习生。神经信息处理系统， 2009, 288296。

5.Doshi-Velez, F.， Wallace, B.和Adams, R.图稀疏lDA:一个具有结构化稀疏性的主题模型。在29人会议记录^thAssoc。的进步。人工智能会议。， 2015, 25752581。

6.费尔艾萨克公司(FICO)模型构建者记分卡导论，2011;http://www.fico.com/en/latest-thinking/white-papers/introduction-to-model-builder-scorecard．

7.古德曼，B.和Flaxman, S.欧盟关于算法决策和“解释权”的法规，2016;https://arxiv.org/abs/1606.08813v3．

8.Huysmans, J.， Dejaeger, K.， Mues, C.， Vanthienen, J.和Baesens, B.基于决策表、树和规则的预测模型可理解性的实证评价。J.决策支持系统， 1(2011)， 141154。

9.人机协作的交互式和可解释的机器学习模型。博士学位论文。麻省理工学院，剑桥，MA, 2015。

10.Kim, B.， Rudin, C.和Shah, J.A.贝叶斯案例模型:基于案例推理和原型分类的生成方法。在27国会议记录^th实习生。神经信息处理系统， Vol. 2, 19521960, 2014。

11.金，B.，格拉斯曼，E.，约翰逊，B.和沙阿，J. iBCM:交互式贝叶斯案例模型通过直观的交互赋予人类权力。麻省理工学院，剑桥，MA, 2015。

12.克宁，S.，哈里森，B.，费，K.，伊斯贝尔，C.，里德尔，M.和托马斯，A.学习在RL中使用情感和建议的解释。IEEE反式。认知与发展系统， 1(2017)， 4155。

13.Lipton, Z.C, Kale, D.C.和Wetzel, R.用rnn在临床时间序列中建模缺失数据。在医疗机器学习学报, 2016年。

14.刘C。拉尼。P.和萨卡尔。2006。人机交互中情感识别的机器学习技术实证研究。模式分析与应用， 1(2006)， 5869。

15.卢旸，Caruana, R.和Gehrke, J.分类和回归的可解模型。在十八人会议记录^thACM SIGKDD实习生。知识发现与数据挖掘， 2012, 150158。

16.卢旸，Caruana, J. Gehrke, J.和Hooker, G.具有双向交互作用的精确可理解模型。在十九届会议记录^thACM SIGKDD实习生。知识发现与数据挖掘， 2013, 623631。

17.Mahendran, A.和Vedaldi, A.通过反转来理解深层图像表示。在计算机视觉与模式识别学报， 2015, 19。

18.隐藏因素和隐藏主题:用评论文本理解评级维度。在七人会议记录^thACM会议推荐系统， 2013, 165172。

19.Mikolov, T.， Sutskever, I.， Chen, K.， Corrado, G.S.和Dean, J.词汇和短语的分布式表征及其构成。在二十六届会议的议事录^th实习生。神经信息处理系统2， 2013, 31113119。

20.Mordvintsev, A.， Olah, C.和Tyka, M.盗梦:深入神经网络。谷歌AI博客;https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html．

21.哈佛对亚裔美国人不公平吗?纽约时报(2014年11月24日);http://www.nytimes.com/2014/11/25/opinion/is-harvard-unfair-to-asian-americans.html．

22.珠儿,J。因果关系。剑桥大学出版社，剑桥，马萨诸塞州，2009年。

23.里贝罗，m.t.，辛格，s和格斯特林，C。“我为什么要相信你?”解释任何分类器的预测。在二十二届会议的会议记录^ndSIGKDD实习生。知识发现与数据挖掘， 2016, 11351144。

24.Ridgeway, G, Madigan, D, Richardson, t和O'Kane, J.可解释的提高naïve贝叶斯分类。在四人会议记录^th实习生。知识发现与数据挖掘， 1998, 101104。

25.Simonyan, K.， Vedaldi, A.， Zisserman, A.深入卷积网络:可视化图像分类模型和显著性地图，2013;https://arxiv.org/abs/1312.6034．

26.Szegedy, C.， Zaremba, W.， Sutskever, I.， Bruna, J.， Erhan, D.， Goodfellow, I.和Fergus, R.神经网络的有趣属性，2013;https://arxiv.org/abs/1312.6199．

27.Tibshirani, R. 1996。回归收缩和选择通过套索。皇家统计学会:B辑:统计方法， 1(1996)， 267288。

28.Van der Maaten, L.和Hinton, G.使用t-SNE可视化数据。J.机器学习研究(2008), 25792605。

29.王,H.-X。，Fratiglioni, L., Frisoni, G. B., Viitanen, M. and Winblad, B. Smoking and the occurrence of Alzheimer's disease: Cross-sectional and longitudinal data in a population-based study.阿米尔。J.流行病学149， 7(1999)， 640644。

30.王铮，Freitas, N.和Lanctot, M.深度强化学习的Dueling网络架构。在33人会议记录^{理查德·道金斯}实习生。48 .机器学习， 2016, 19952003。

回到顶部

作者

Zachary C. Lipton(推特@zacharylipton或GitHub@zackchase)是美国宾夕法尼亚州匹兹堡市卡耐基梅隆大学的助理教授。他的工作涉及不同的应用领域，包括医疗诊断、对话系统和产品推荐。他是杂志的创始编辑大致正确的博客的主要作者深度学习直截了当地说，这是一本通过Jupyter笔记本教授深度学习的开源互动书籍。

版权归所有者/作者所有。授权ACM出版权利。
请求发布的权限permissions@acm.org

没有找到条目

模型可解释性的神话

可解释性研究的渴望

可解释性的透明度概念

讨论

未来的工作

参考文献

作者

文章内容:

了解2022年软件工程师的薪酬

谁来决定AI是否活着?

Log4j和管理软件组件升级的费力不讨好的高风险任务