ACM

ACM通信

首页 / 杂志存档 / 2019年6月(第62卷第6期) / 《创造智能的挑战 /全文

评论文章

《创造智能的挑战

Daniel S. Weld, Gagan Bansal著
ACM通信，2019年6月，第62卷第6期，70-79页
10.1145 / 3282486
评论(1)

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享分享到黑客新闻在推特上分享在Facebook上分享

人工智能(ai)系统在许多限定任务上已经达到或超过了人类的性能。因此，它们越来越多地被部署在关键任务中，比如信用评分、预测保释候选人是否会再次犯罪、选择我们在社交网络上阅读的新闻，以及自动驾驶汽车。与其他关键任务软件不同，非常复杂的AI系统很难测试:AI决策是特定于环境的，通常基于数千或数百万个因素。通常情况下，人工智能行为是通过搜索巨大的行动空间产生的，或者通过在大量训练数据上运行的庞大神经网络的不透明优化来学习。几乎从定义上讲，没有明确的方法可以完成这些人工智能任务。

回到顶部

关键的见解

不幸的是，许多人工智能产生的行为是陌生的，也就是说，它可能以意想不到的方式失败。这一教训在最新的深度神经网络图像分析系统的性能中体现得最为清楚。虽然他们对自然发生的图片进行物体识别的准确性非常高，但对输入图像的难以察觉的变化可能会导致不稳定的预测，如图1．为什么这些识别系统如此脆弱，对明显相同的图像做出不同的预测?不可理解的行为不仅限于机器学习;许多人工智能程序，如自动化规划算法，执行基于搜索的预测和推断，其复杂性超过了人类的验证能力。虽然一些搜索和规划算法被证明是完整和最优的，但可理解性仍然很重要，因为底层的原语(例如，搜索操作符或动作描述)通常是近似的。²⁹一个人不能相信一个基于(可能)错误前提的证明。

图1。在图片中添加一个微小的矢量会改变GoogLeNet³⁹图像识别器对从“熊猫”到“长臂猿”的图像分类。资料来源:Goodfellow等。⁹

尽管可理解性具有明显的价值，但要具体说明是什么使系统“可理解”仍然非常困难。(我们将在本文后面讨论对可理解行为的需求。)简而言之，我们寻找的人工智能系统是，哪些因素导致了系统的行为，²⁴让用户能够预测情况的变化会如何导致替代行为，并通过交互实现对AI的有效控制。正如我们将要说明的那样，在简明的解释和准确的解释之间存在着一种核心的紧张关系。

所示图2，我们的调查集中在构建可理解的AI软件的两种高级方法:确保潜在的推理或学习模型是固有的可解释的，例如，通过学习一个线性模型在少数被充分理解的特征，如果有必要使用一个不可理解的模型，如复杂的神经网络或深度前瞻性搜索，然后将这个复杂的系统映射到一个更简单的，解释性的模型来理解和控制。²⁸使用可解释的模型提供了透明度和准确性的好处;理论上，用户可以确切地看到模型在做什么。不幸的是，可解释方法的性能可能不如更复杂的方法，比如深度神经网络。相反，映射到解释模型的方法可以应用于任何目前提供最佳性能的AI技术，但它的解释本质上不同于AI系统的实际操作方式。这就产生了一个核心难题:用户如何能够相信这样的解释反映了潜在决策的本质，而不隐藏重要的细节?我们假设答案是让解释系统具有互动性，这样用户就可以深入探究，直到他们对自己的理解感到满意。

图2。创造可理解AI的方法。

设计可理解的人工智能的关键挑战是将复杂的计算过程传达给人类。这需要跨学科的技能，包括人机交互、人工智能和机器学习专业知识。此外，由于哲学和心理学长期研究解释的性质，这些领域也应该参考。

本文强调了构建可理解智能的关键方法和挑战，描述了可理解性，并解释了为什么即使在具有可度量的高性能系统中，可理解性也是重要的。我们描述了遗传算法的优点和局限性²Ma类强大的可解释ML模型。然后，我们描述了处理不可理解模型的方法，讨论了映射到一个更简单、可理解的适合解释和控制的模型的不同策略。我们概述了构建交互式解释系统的愿景，其中映射会根据用户的需求而变化。最后，我们认为，可理解性对于基于搜索的人工智能系统以及基于机器学习的人工智能系统很重要，类似的解决方案可能会被应用。

回到顶部

为什么可理解性问题

虽然有人认为，在人工智能系统中，解释远不如纯粹的性能重要，但有很多原因可以解释为什么可理解性很重要。我们从讨论技术原因开始，但社会因素也很重要。

人工智能可能有错误的目标。在某些情况下，即使100%完美的性能也可能是不够的，例如，由于难以明确地指定性能指标，性能指标是有缺陷的或不完整的。权威人士警告说，一个负责最大化回形针产量的自动化工厂，可能会以屠杀人类为子目标，因为人类正在使用本可以用于其任务的资源。虽然这个例子可能有点异想天开，但它说明了平衡一个效用函数的多个属性是非常困难的。例如，正如利普顿观察到的，²⁵“做出招聘决定的算法应该同时优化生产率、道德和合法性。”然而，如何表达这种取舍呢?其他的例子包括平衡训练错误，同时揭示医学上的因果关系和平衡再犯预测的准确性和公平性。¹²对于后者，一个简化的目标函数，如精确度结合历史偏差训练数据，可能会导致不同群体(如有色人种)的表现不均衡。可理解性让用户能够判断AI是否基于正确的理由而正确。

人工智能可能使用了不充分的功能。特征通常是相关的，当一个特征包含在一个模型中时，机器学习算法会从它中提取尽可能多的信号，间接地建模其他没有包含的特征。这可能导致有问题的模型，如图所示图4 b(并在后面描述)，ML确定患者既往哮喘史(一种肺部疾病)与肺炎死亡呈负相关，可能是由于与(未建模)变量相关，例如这些患者接受了及时和积极的肺部问题治疗。一个可理解的模型可以帮助人们发现这些问题并纠正它们，例如，通过添加额外的功能。⁴

分配漂移。部署的模型在野外可能表现不佳，也就是说，在训练期间使用的分布和部署期间遇到的分布之间存在差异。此外，部署分布可能会随着时间的推移而改变，这可能是由于部署行为的反馈。这在对抗性领域很常见，比如垃圾邮件检测、在线广告定价和搜索引擎优化。可理解性帮助用户确定模型何时不能一般化。

促进用户控件。许多AI系统通过用户的行为来诱导用户的偏好。例如，自适应新闻提要可以预测哪些故事可能是用户最感兴趣的。随着机器人变得越来越普遍，进入家庭，偏好学习将变得越来越普遍。如果用户理解为什么AI会执行不希望的操作，他们就可以更好地发出指令，从而改善未来的行为。

用户验收。即使他们不寻求改变系统行为，用户已经被证明对算法的决定更满意，更有可能接受它们，如果它们伴随着一个解释。¹⁸在被告知应该切除肾脏后，病人很自然地会问医生为什么，即使他们不完全理解答案。

改善人类的洞察力。虽然改进的人工智能可以实现以前由人类执行的任务的自动化，但这不是它们的唯一用途。此外，科学家利用机器学习从大数据中获得洞察力。医学提供了几个例子。⁴同样，AlphaGo的行为³⁵彻底改变了人类对这项运动的理解。可理解的模型极大地促进了这些过程。

法律规则。欧盟的GDPR立法规定了公民获得解释的权利，其他国家可能会效仿。此外，评估法律责任是一个日益令人关切的领域;一个部署的模型(例如自动驾驶汽车)可能会引入新的责任领域，造成人类操作人员意想不到的事故，如图中所示的“人工智能特定错误”图3．审计此类情况以评估责任需要理解模型的决策。

图3。蓝色虚线表示人类可能犯错误的空间。

回到顶部

定义可理解性

到目前为止，我们已经非正式地讨论了可理解性。事实上，很少有计算研究人员试图正式定义是什么让人工智能系统变得可解释、透明或可理解，⁶但一个建议的标准是人类的可模拟性:²⁵对于给定的输入，人类用户能够轻松地预测模型的输出吗?根据这一定义，稀疏线性模型比密集或非线性模型更容易解释。

亨佩尔和萨尔蒙等哲学家长期以来一直在争论解释的本质。刘易斯²³总结道:“解释一个事件就是提供一些关于它的因果历史的信息。”但可能存在许多因果解释。事件C导致E的事实是相对于想象的反事实情景的最好理解的，在没有C的情况下，E就不会发生;此外，C应该是最小的，这是早期科学家，如奥卡姆的威廉知道的直觉，并由哈尔彭和珀尔形式化。¹¹

按照这个逻辑，我们认为比可模拟性更好的标准是回答反事实的能力，也就是“如果”问题。具体来说，我们说一个模型的可理解程度达到了这样的程度:人类用户可以预测一个特征的变化，例如，它的值的微小增加，将如何改变模型的输出，以及他们是否可以可靠地修改响应曲线。请注意，如果可以模拟模型，预测其输出，那么就可以预测变化的影响，但反之则不行。

根据这一定义，线性模型尤其具有可解释性，因为它们允许反事实的回答。例如，考虑一个用于情感分析的朴素贝叶斯unigram模型，其目标是预测文本段落的情感极性(积极或消极)。即使模型很大，结合来自数千个单词的证据，人们也可以通过观察相应权重的符号和大小来看到给定单词的影响。这回答了一个问题:“如果省略了这个词会怎样?”类似地，通过比较两个词的权重，可以预测用一个词替代另一个词对模型的影响。

排名理解模型。既然一个人可以选择一些可理解的模型，那么考虑是什么让一个模型比另一个更可取是很有用的。社会科学研究表明，解释最好被认为是一个社会过程，是解释者和被解释者之间的对话。^15，30.因此，Grice的合作交流规则¹⁰也许可以解释清楚。格赖斯的品质准则是诚实，只涉及有证据支持的事情。数量的最大限度是提供所需要的信息，仅此而已。关系准则:只说与讨论有关的事情。礼貌准则说的是避免模棱两可，尽可能清晰。

米勒总结了几十年来心理学研究的成果，指出解释是对比的，即“为什么P而不是Q?”问题中的事件P被称为事实，Q被称为陪衬。^30.通常情况下，即使陪衬在解释过程中至关重要，它也没有被明确地表述出来。例如，考虑这样一个问题:“为什么您预测图像描绘的是靛蓝的旗帜?”一种关于蓝色的解释含蓄地假设陪衬物是另一种鸟，比如山雀。但也许提问者会奇怪，为什么识别器没有识别出一条牛仔裤;在这种情况下，更精确的解释可能会强调翅膀和喙的存在。显然，针对错误的铝箔的解释不会令人满意，但铝箔的性质和复杂程度可以取决于最终用户的专业知识;因此，对于不同的人，理想的解释是不同的。⁶例如，为了验证ML系统是公平的，伦理学家可能会比数据科学家生成更复杂的箔片。大多数ML解释系统已经限制了他们的注意力在阐明一个二元分类器的行为，也就是说，只有一个可能的陪音选择。然而，当我们试图解释多等级系统时，解决这个问题变得至关重要。

许多系统太过复杂，没有近似值无法理解。在这里，关键的挑战是决定忽略哪些细节。经过多年的研究，心理学家确定了几个标准可以优先纳入解释:必要原因(与充分原因);有意行为(vs.那些未经深思熟虑的行为);近因(与远因相比);区分事实和陪衬的细节;和异常特征。^30.

根据Lombrozo的说法，人类更喜欢更简单(即包含更少的从句)、更一般化和连贯(即与人类先前的信念相一致)的解释。²⁶特别是，她观察到一个令人惊讶的结果，人类更喜欢简单(一个从句)的解释，而不是连接词，即使后者的概率比前者高。²⁶这些结果提出了关于人工智能系统解释的目的的有趣问题。解释的主要目的是说服人类接受计算机的结论(也许是通过给出一个简单的、似是而非的解释)还是教育人类最可能的真实情况?特沃斯基、卡尼曼和其他心理学家已经记录了许多导致人类得出错误结论的认知偏差;例如，人们错误地推断连接的概率，一个具体而生动的场景被认为比一个严格包含它的抽象场景更有可能发生。¹⁶一个解释系统应该利用人类的局限性，还是寻求保护我们不受其影响?

其他研究提出了一个额外的复杂问题，即如何将系统的不确定预测传达给人类用户。科勒发现，简单地对一个命题给出一个解释会让人们认为它更有可能是正确的。¹⁸此外，用与先前解释事实相同的方法来解释一个事实会放大这种效应。³⁶

回到顶部

本质上可理解的模型

一些人工智能系统本身就具有可理解性，我们之前观察到线性模型支持反事实推理。不幸的是，线性模型的效用有限，因为它们往往导致较差的准确性。更具表现力的选择可能包括简单的决策树和紧凑的决策列表。为了具体说明可理解性的好处，我们将重点放在广义可加模型(GAMs)上，这是一个强大的ML模型类，它使用称为形状函数的(可能是非线性的)单一特征模型的线性组合将一组特征与目标关联起来。²⁷例如,如果y表示目标和{x₁,……x_n}表示特征，那么GAM模型就采用这种形式y＝₀+ (x_j),f_我年代表示形状函数和目标y通过对单个特征项求和来计算。流行的形状函数包括非线性函数，如样条和决策树。利用线性形状函数，GAMs简化为线性模型。遗传算法²M模型扩展了GAM模型，包括了特征之间成对交互的术语:

Caruana等人观察到，对于包含中等数量语义特征的域，GA²M模型的性能可以与不可理解的模型(如随机森林和神经网络)竞争，同时保持可理解性。⁴Lou等人观察到在可用于遗传算法学习的方法中²M模型中，通过梯度助推学习得到的带有bagged浅层回归树形函数的版本精度最高。²⁷

GAM和GA都有²M被认为是可解释的，因为模型的学习行为可以通过检查或可视化术语(单个或成对的特征)对最终预测的贡献很容易理解。例如,图4描绘了一个遗传算法²M模型训练来预测患者因肺炎死亡的风险，显示了一个子集对总风险的贡献(对数赔率)。积极的贡献会增加风险，而消极的贡献会降低风险。例如,图4一显示了患者的年龄如何影响预测风险。虽然年轻患者(例如，年龄< 20岁)患病风险低且稳定，但老年患者(年龄> 67岁)患病风险迅速增加。有趣的是，该模型显示在86岁时突然增加;也许这是医生对“时机已到”的病人采取更温和治疗的结果。更令人惊讶的是，超过100岁的患者数量突然下降。这可能是另一种社会效应;一旦病人达到神奇的“100”，他或她就会得到更积极的治疗。可解释模型的一个好处是它能够突出这些问题，激发更深入的分析。

图4。的一部分图1来自Caruana等人。⁴显示三个(总共56)组件的GA²M模型，通过训练来预测患者死于肺炎的风险。

图4 b阐明了习得模型另一个令人惊讶的方面;显然有哮喘呼吸系统疾病的病史减少病人有死于肺炎的危险!这一发现对任何医生来说都是违反直觉的，因为他们认识到，事实上，哮喘在理论上应该会增加这种风险。当Caruana等人检查数据时，他们得出结论，较低的风险可能是由于相关的变量，哮喘患者通常接受及时和积极的治疗肺部问题。因此，尽管该模型在测试集上非常准确，但它很可能会失败，极大地低估了对一个此前未接受过治疗的哮喘患者的风险。

促进人类对GA的控制²M模型。领域专家可以通过将哮喘术语的权重设为零来修正模型学习到的这种错误模式。事实上,遗传算法²Ms允许用户通过使用GUI来重绘模型术语的线形图，从而为模型提供更全面的反馈。⁴另一种补救方法可能是在模型中引入一个新特征，代表病人最近是否看过肺病医生。在添加了这个与哮喘高度相关的特征和再训练之后，新学习的模型可能会反映哮喘(本身)增加死于肺炎的风险。

从这则轶事中还有两个要点。首先，数据表示中缺少一个重要的特征会导致任何AI系统学习另一个相关特征的非直觉行为。第二，如果学习者是可理解的，那么这种非直觉的行为是立即明显的，允许适当的怀疑(尽管测试的准确性很高)和更容易调试。

回想一下,遗传算法²Ms比简单的GAMs更有表现力，因为它们包含成对的项。图4 c描述了年龄和癌症的特征。这一解释表明，在癌症患者中，年轻的人风险更高。这可能是因为年轻的癌症患者可能是危重患者。同样，由于医生可以很容易地检查这些术语，他们知道学习者是否得出了意想不到的结论。

的局限性。如前所述,遗传算法²M模型被限制为二元分类，因此解释是明显的对比，只有一种选择的陪衬。可以扩展GA²M通过培训处理多个类n1对rest分类器或构建分类器的层次结构。然而，虽然这些方法会产生一个工作的多类分类器，但我们不知道它们是否保持了模型的可理解性，也不知道用户是否可以通过编辑形状函数有效地调整这样的模型。

设计可理解的人工智能的关键挑战是将复杂的计算过程传达给人类。

此外，回想一下那次GA²Ms将它们的预测分解成单个项的效果，可以可视化。然而，如果用户对术语的含义感到困惑，他们将无法理解这个模型，或者无法提出有意义的“如果”问题。此外，如果有太多的特性，模型的复杂性可能会压倒一切。Lipton指出，模拟某些模型(如决策树)所需的工作量可能会随着参数的数量呈对数增长，²⁵但对于遗传算法²要检查的可视化的数量可以二次增长。有几种方法可以帮助用户管理这种复杂性;例如，术语可以按重要性排序;然而，如何估计重要性还不清楚。可能的方法包括使用烧蚀分析来计算项对模型性能的影响或计算项在训练样本中所见的最大贡献。或者，领域专家可以根据语义对术语进行分组，以方便阅读。

然而，当在处理文本、音频、图像和视频数据上的分类器时，当特征的数量增长到数百万时，现有的可理解模型不能像深度神经网络这样不可理解的方法那样执行得好。由于这些模型以复杂、非线性的方式结合了数以百万计的特征，它们超出了人类的模拟能力。

回到顶部

了解神秘的模型

人工智能模型在两个方面可能是不可思议的。它可能以黑箱API的形式提供，比如微软认知服务(Microsoft Cognitive Services)，它使用机器学习提供图像识别功能，但不允许检查底层模型。或者，模型可能在用户的控制下，但非常复杂，比如一个深度的神经网络，用户可以访问无数学习到的参数，但不能合理地解释它们。如何才能最好地向用户解释这些模型?

可理解性/富达权衡。对一个事件的一个好的解释是两者兼而有之容易理解的而且忠实的，传达事件的真实原因。不幸的是，这两个标准几乎总是冲突的。考虑一下具有数百万个节点的深度神经网络的预测:对该网络的预测进行完整而准确的跟踪将非常复杂，难以理解，但任何简化都将牺牲可靠性。

因此，要找到一个令人满意的解释，就需要平衡可理解性和忠实度这两个相互矛盾的目标。Lakkaraju et al。²²建议制定这种形式的显式优化，并提出一种近似算法，以紧凑的if-then规则集的形式生成全局解释。Ribeiro等人描述了一个类似的优化算法，该算法在搜索摘要规则时平衡了忠实度和覆盖率。³⁴

事实上，所有将难以理解的模型呈现为可理解的方法都需要将复杂的模型映射为更简单的模型。²⁸已经提出了几种高层次的制图方法。

当地的解释。简化学习模型解释的一种方法是使其相对于单个输入查询。这样的解释，被称为局部的³³或基于实例的，²²类似于医生解释病人诊断的具体原因，而不是交流她所有的医学知识。将这种方法与使用遗传算法对模型的全局理解进行对比²M模型。在数学上，我们可以看到一个局部解释，即把模型中的几个变量固定在特定的值上，从而允许简化。

生成局部解释是AI系统中的常见做法。例如，早期的基于规则的专家系统包括解释系统，它通过背景知识增强了系统对特定案例的推理痕迹。³⁸推荐系统是机器学习最早部署的应用之一，它也引发了对其特定推荐的解释的需求;最令人满意的答案是基于用户之前的选择，相似用户的评级，以及被推荐商品的特征。³²

局部近似的解释。然而，在许多情况下，即使是局部的解释也可能过于复杂，没有近似值就无法理解。在这里，关键的挑战是在创建更简单的解释性模型时决定忽略哪些细节。心理学家发现并总结的人类偏好，应该指导构建这些简化的算法。

Ribeiro等人的LIME系统³³是一个很好的例子，系统生成一个局部近似的解释模型的任意学习模型，但它回避了部分问题，哪些细节可以省略。相反，LIME需要开发人员提供两个额外的输入:一组语义上有意义的特性X，以及一种可解释的学习算法，如线性分类器(或GA)²M)，它用来生成一个解释X”。

中显示了LIME背后的深刻见解图5．给出一个要解释的实例，如红色粗体叉号所示，LIME随机生成一组类似的实例，并使用黑箱分类器，f，以预测它们的值(如红色叉和蓝色圆圈所示)。这些预测的权重取决于它们与输入实例的相似性(类似于局部加权回归)，用于训练一种新的、更简单的可理解分类器，如图所示为线性决策边界，使用X，即语义特征的较小集合。用户接收可理解分类器作为解释。而这个解释模型²⁸可能是一个糟糕的全球代表f，希望它是所解释实例附近边界的一个精确的局部逼近。

图5。直观指导了LIME方法构造近似局部解释。资料来源:Ribeiro等人。³³

Ribeiro等人在多个领域测试了LIME。例如，他们通过将像素级特征转换为更小的“超级像素”集来解释卷积神经网络图像分类器的预测;为此，他们运行了一种现成的分割算法，该算法识别输入图像中的区域，并在生成“相似”图像时改变这些区域的颜色。虽然LIME没有提供关于它的解释的正式保证，但研究表明，LIME的解释帮助用户评估几种分类器中哪一种最能一般化。

选择解释性词汇。Ribeiro等人使用预先分割的图像区域来解释图像分类决策，说明了决定解释性词汇表的更大问题。显然，试图识别导致决策的精确像素是没有意义的:像素是级别太低的表示，对用户没有语义意义。事实上，深度神经网络的能力来自于这样一个事实:它们的隐藏层被训练来识别潜在特征，这种方式似乎比以前独立定义这些特征的努力要好得多。深层网络之所以不可思议，正是因为我们不知道这些隐藏的特征表示什么。

然而，要解释此类模型的行为，我们必须找到一些对输入像素的高级抽象，以传达模型的本质。Ribeiro等人决定使用现成的图像分割系统是务实的。它选择的区域很容易可视化，并带有一些语义值。然而，区域的选择与分类器如何做出决定无关。要解释黑箱模型，没有可能访问分类器的内部表示，可能没有更好的选择;任何解释都缺乏可信度。

但是，如果用户可以访问分类器并为其定制解释系统，那么有一些方法可以选择更有意义的词汇表。一种有趣的方法是将分类器与自然语言、图像字幕系统联合训练。¹³分类器使用图像中出现的目标标记的训练数据;字幕系统标有描述图像外观的英文句子。通过联合训练这些系统，隐藏层中的变量可能会与语义上有意义的概念保持一致，即使它们正在被训练以提供辨别能力。这导致对图像的英文描述既具有高图像相关性(来自字幕训练数据)，又具有高类相关性(来自物体识别训练数据)，如图所示图6．

图6。来自亨德里克斯等人的视觉解释。¹³

虽然这种方法在很多例子中都很有效，但一些解释包括图像中实际上不存在的细节;更新的方法，如短语批评方法，可能会产生更好的描述。¹⁴另一种方法可能确定学习的分类器中是否有隐藏层，这些层学习与有意义的东西对应的概念。例如，塞勒和费格斯观察到某些层可以作为边缘或模式检测器。⁴⁰只要用户能够识别这些层的存在，那么最好在解释中使用它们。Bau等人描述了一种自动机制，使用大型的、带标签的对象、部件和纹理语料库，将CNN表示与语义上有意义的概念进行匹配;此外，使用这种对齐，他们的方法定量评分CNN可解释性，潜在地提出了一种优化可理解模型的方法。

然而，仍然存在许多障碍。例如，不清楚是否有令人满意的方法来描述重要的、有区别的特征，这些特征通常是无形的，例如，纹理。一个容易理解的解释可能需要定义新的术语，或者将语言与其他形式结合起来，比如图像块。另一个挑战是诱导一阶关系描述，这将使“蜘蛛因为有八条腿”和“满是因为所有的座位都被占据”这样的描述成为可能。虽然量化和关系抽象对人们来说是非常自然的，但统计-关系学习的进展一直很缓慢，神经符号学习还有许多悬而未决的问题。^3.

使用解释性模型促进用户控制。通过将一个高深莫测的模型映射到一个更简单的解释性模型来生成一个解释，这只是战斗的一半。除了回答关于原始模型的反事实之外，理想情况下，我们能够将用户在解释性模型中采取的任何控制行为映射回原始的、不可理解的模型的调整。例如，我们演示了用户如何直接编辑GA²M的形状曲线(图4 b)来改变模型对哮喘的反应。是否有一种方法来解释这种行为，使一个可理解的解释模型，作为一个修改原始的，不可理解的模型?对于任意源模型，我们似乎不太可能发现一种通用的方法，因为抽象映射在一般情况下是不可逆的。然而，有可能的方法用于向后映射到源模型的特定类或特性转换映射的特定类型。这是未来研究的一个重要领域。

回到顶部

对交互式解释

最佳的解释选择取决于听众。就像真人老师会用不同的方式向懂或不懂微积分的学生解释物理一样，接受者的技术成熟度和背景知识会影响机器生成解释的适用性。此外，由于FICO评分而被拒绝抵押申请的购房者的担忧与调试系统的开发人员或数据科学家的担忧不同。因此，一个理想的解释者应该在许多交互过程中模拟用户的背景。

HCI社区长期以来一直在研究心智模型，³¹许多智能辅导系统(its)建立了学生知识和误解的明确模型。²然而，这些模型的框架通常是针对每个学科领域手工设计的，因此，将ITS方法应用于旨在解释任意黑箱学习者的系统可能是困难的。

即使有了一个准确的用户模型，一个解释也可能无法回答用户的所有问题，因为人类可能会有后续的问题。我们的结论是，解释系统应该是交互式的，支持用户提出的问题和用户的行动。这与之前总结的心理学文献的结果相吻合，并突出了格赖斯的格言，尤其是那些与数量和关系有关的格言。它还建立在Lim和Dey在泛在计算方面的工作的基础上，后者调查了关于复杂的、上下文感知的应用程序，用户希望问的各种问题。²⁴我们设想了一个交互式解释系统，在向用户展示一个初始解释后，支持许多不同的后续和深入操作:

通过改变锡纸来重定向答案。“当然，但你为什么没预测到C类呢?”
要求更多细节(也就是说，一个更复杂的解释模型)，也许是将解释限制在特征空间的子区域。“我只关心50岁以上的女性……”
询问决策的理由。“你为什么会相信这个?”系统可能会通过显示在达成该决定中最有影响力的标记训练示例来做出响应，例如，通过影响函数识别的示例¹⁹或者最近邻方法。
查询模型的灵敏度通过询问对某些特性的最小扰动会导致不同的输出。
改变词汇通过在解释模型中添加(或删除)一个特征，可以从预定义的集合中添加，也可以使用机器教学的方法，或者使用概念激活向量。¹⁷
干扰输入示例看看它对预测和解释的影响。除了帮助理解模型(直接测试反事实)，这一行动还使受影响的用户能够对最初的预测提出质疑:“但是，警官，之前的其中一个酒后驾驶被推翻了……?”
调整模型。基于新的理解，用户可能希望修正模型。在这里，我们希望建立在交互式机器学习的工具上¹并说明调试,^20.，21它们探索了添加新的训练示例、纠正现有数据中的错误标签、指定新特征和修改形状函数的交互。正如前一节所提到的，将参考解释性模型做出的用户调整映射到原始的、不可理解的模型可能是具有挑战性的。

为了使这些想法具体化，图7当用户试图理解构建在Inception v3之上的深度神经狗/鱼分类器的鲁棒性时，呈现了一个可能的对话框。³⁹如图所示:(1)计算机正确地预测图像描绘了一条鱼。(2)用户要求使用LIME提供解释。³³(3)用户担心分类器更关注背景而不是鱼本身，要求查看影响分类器的训练数据;使用影响函数计算最近邻。¹⁹虽然这些图像中有海葵，但系统似乎也在识别小丑鱼。(4)为了获得置信度，用户对输入图像进行编辑，去除背景，重新提交给分类器并检查解释。

图7。一个用于深入了解DOG/FISH图像分类器的交互式解释性对话框示例。

回到顶部

解释组合搜索

前面的大部分讨论都集中在理解上机器学习，这只是人工智能的一种。然而，基于的系统也面临着同样的问题deep-lookahead搜索。虽然许多规划算法都有很强的理论属性，例如可靠性，但它们都是在行动中搜索模型这包括他们自己的假设。此外，目标说明也同样不完整。²⁹如果这些不言而喻的假设是错误的，那么一个正式正确的计划仍然可能是灾难性的。

考虑一个为远程移动机器人生成一系列动作的规划算法。如果计划很短，行动数量适中，那么问题可能天生就很容易理解，人类可以很容易地发现问题。然而，更大的搜索空间可能会在认知上压倒一切。在这些情况下，局部解释提供了一种有用的简化技术，就像解释机器学习一样。词汇表问题同样至关重要:如何简洁而抽象地总结一个完整的搜索子树?根据选择的解释陪衬，不同的答案是适当的。⁸Sreedharan等人描述了一种生成最小解释的算法，该算法修补了用户对某个域的部分理解。³⁷参与混合计划⁷已经证明了支持与规划系统的交互式对话的重要性。因为很多人工智能系统，比如AlphaGo，³⁵将深度搜索和机器学习结合起来，将产生更多的挑战，因为需要解释组合数学和学习模型之间的相互作用。

回到顶部

最终的想法

为了信任已部署的人工智能系统，我们不仅必须提高它们的鲁棒性，⁵但也要开发一些方法让他们的推理更容易理解。可理解性将帮助我们发现AI因为分布漂移或目标和特征的不完整表征而犯的错误。在越来越常见的人类/AI协作团队中，可理解性也将促进人类的控制。此外，可理解性将有助于人类向人工智能学习。最后，有一些法律理由要求人们理解人工智能，包括欧洲的GDPR，以及越来越多的需要在人工智能出错时分配责任。

根据所涉及的模型的复杂性，两种方法可能是适当的:使用一个固有的可解释模型，或采用一个难以理解的复杂模型，并通过结合curry和局部近似将其映射到一个更简单的解释性模型来生成事后解释。当学习一个模型超过中等数量的人类可解释的特征时，一个人可以自信地用像遗传算法这样的方法来平衡性能和可理解性²不过，对于包含数千个或数百万个特性的问题，性能要求可能会迫使采用一些难以理解的方法，比如深度神经网络或增强决策树。在这种情况下，事后解释可能是促进人类理解的唯一方法。

解释算法的研究正在迅速发展，在局部(特定实例)解释和学习模型的全局逼近方面都有工作。所有这些方法的一个关键挑战是解释词汇的构建，本质上是一组在近似解释模型中使用的特征。不同的解释模型可能适用于解释陪衬的不同选择，这是一个值得系统构建者更多关注的方面。虽然许多可理解的模型可以由用户直接编辑，但需要更多的研究来确定如何最好地映射这些行为，以修改潜在的不可理解的模型。心理学结果表明，解释是一种社会过程，最好被认为是一种对话。因此，我们提倡加强互动解释系统的工作，以支持广泛的后续行动。为了推动这一重要领域的快速发展，我们希望看到多学科研究人员之间的合作。

致谢我们感谢E. Adar、S. Ameshi、R. Calo、R. Caruana、M. Chickering、O. Etzioni、J. Heer、E. Horvitz、T. Hwang、R. Kambhamapti、E. Kamar、S. Kaplan、B. Kim、P. Simard、E. Kamar、C. Meek、M. Michelson、S. Minton、B. Nushi、G. Ramos、M. Ribeiro、M. Richardson、P. Simard、J. Suh、J. Teevan、T. Wu和匿名评论者的有益对话和评论。这项工作得到了未来生命研究所2015-144577(5388)的部分支持，另外还有NSF基金is -1420667、ONR基金N00014-15-1-2774和WRF/Cable教授职位的额外支持。

数字观看作者对这部作品的独家讨论通信视频。//www.eqigeno.com/videos/the-challenge-of-crafting-intelligible-intelligence

回到顶部

参考文献

1.Amershi, S.， Cakmak, M.， Knox, W.和Kulesza, T.人民的力量:人类在交互式机器学习中的角色。人工智能杂志35， 4(2014)， 105120。

2.J.R. Anderson, Boyle, F.和B. Reiser, B.智能辅导系统。科学228， 4698(1985)， 456462。

3.Besold, T.等。神经符号学习与推理:综述与解释。CoRR abs / 1711.03902(2017)。arXiv: 1711.03902

4.Caruana, R.， Lou, Y.， Gehrke, J.， Koch, P.， Sturm, M.和Elhadad, N.可理解的医疗保健模型:预测肺炎风险和医院30天再入院。在知识发现(KDD), 2015年。

5.迈向强大的人工智能。人工智能杂志383(2017)。

6.Doshi-Velez, F.和Kim, B.迈向可解释机器学习的严谨科学。ArXiv (2017), ArXiv: 1702.08608

7.弗格森，G.和艾伦，J.F. TRIPS:一个综合的智能解决问题的助手。在AAAI / IAAI, 1998。

8.福克斯，M.，朗，D.和马加齐尼，D.可解释的计划。2017年IJCAI XAI车间;http://arxiv.org/abs/1709.10256

9.Goodfellow, I.J.， Shlens, J.和Szegedy, C. 2014。解释和利用敌对的例子。ArXiv (2014), ArXiv: 1412.6572

10.格赖斯,P。逻辑和对话, 1975, 4158。

11.刘志刚，刘志刚。原因与解释:一个结构模型的方法。第一部分:原因。英国的科学哲学， 4(2005)， 843887。

12.郝瑞德，M.， Price, E.和Srebro, N. N.监督学习中的机会平等。在少量的酒,2016。

13.Hendricks, L.， Akata, Z.， Rohrbach, M.， Donahue, J.， Schiele, B.和Darrell, T.生成视觉解释。2016年大会。

14.亨德里克斯，洛杉矶，胡，R，达雷尔，t和阿卡塔，z。ArXiv (2017), ArXiv: 1711.06465

15.对话过程与因果解释。心理公告107， 1(1990)， 65。

16.卡尼曼,D。思考，快与慢。Farrar, Straus和Giroux，纽约，2011;http://a.co/hGYmXGJ

17.Kim, B.， Wattenberg, M.， Gilmer, J.， Cai, C.， Wexler, J.， Viegas, F.和Sayres, R. 2017。超越特征归因的可解释性:使用概念激活向量的定量测试。ArXiv e-prints(2017年11月);arXiv: stat.ML / 1711.11279

18.解释、想象力和判断的信心。心理公告110， 3(1991)， 499。

19.Koh, P.和Liang, P.通过影响函数理解黑箱预测。2017年ICML。

20.Krause, J.， Dasgupta, A.， Swartz, J.， Aphinyanaphongs, Y.和Bertini, E.使用实例级解释的二进制分类器的可视化诊断工作流。IEEE VAST, 2017。

21.Kulesza, T.， Burnett, M.， Wong, W.和Stumpf, S.解释性调试的原则来个性化交互式机器学习。在IUI, 2015。

22.Lakkaraju, H.， Kamar, E.， Caruana, R.和Leskovec, J.黑箱模型的可解释和可探索近似。KDD-FATML, 2017年。

23.因果解释。哲学论文2(1986), 214240。

24.Lim B.Y.和Dey, A.K.评估上下文感知应用中的可理解性需求。在11年会议记录^th国际泛在计算会议(2009)。ACM, 195204年。

25.《模型可解释性的神话》。在ICML人类在ML中的解释性研讨会论文集, 2016年。

26.因果解释中的简单性和概率性。认知心理学55， 3(2007)， 232257。

27.刘志刚，刘志刚，刘志刚。可理解的分类与回归模型。在知识发现(KDD), 2012年。

28.Lundberg, S.和Lee, S.解释模型预测的统一方法。少量的,2017年。

29.McCarthy, J.和Hayes, P.从人工智能的角度看一些哲学问题。机器智能(1969), 463502。

30.人工智能的解释:来自社会科学的见解。人工智能267(2018年2月),138年。

31.地检官诺曼，一些关于心智模式的观察。心智模式，心理出版社，2014,1522。

32.Papadimitriou, A.， Symeonidis, P.， Manolopoulos, Y.:传统和社会推荐系统的解释风格的广义分类。数据挖掘与知识发现， 3(2012)， 555583。

33.Ribeiro, M, Singh, s，和Guestrin, c，我为什么要相信你?:解释任何分类器的预测。在知识发现(KDD), 2016年。

34.Ribeiro, M.， Singh, S.和Guestrin, C.主播:高精度模型-不可知论解释。2018年AAAI。

35.Silver, D.等。掌握深度神经网络和树搜索的围棋游戏。大自然529年， 7587(2016)， 484489。

36.解释的连贯性和属性的归纳。思考与推理3， 2(1997)， 81110。

37.Sreedharan, S.， Srivastava, S.和Kambhampati, S.层次专家级别的建模为用户特定的机器人行为解释。ArXiv e-prints， (2018.02)， ArXiv:1802.06895

38.swoutout, W. XPLAIN:创建和解释专家咨询程序的系统。人工智能21， 3(1983)， 285325。

39.Szegedy, C.， Vanhoucke, V.， Ioffe, S.， Shlens, J.和Wojna, Z.重新思考计算机视觉的inception架构。2016年CVPR。

40.Zeiler, M.和Fergus, R.可视化和理解卷积网络。2014年大会。

回到顶部

作者

丹尼尔·s .焊缝（weld@cs.washington.edu)是美国华盛顿州西雅图华盛顿大学Paul G. Allen计算机科学与工程学院的Thomas J. Cable/WRF教授。

选手Gagan邦萨尔（bansalg@cs.washington.edu)是美国西澳西雅图华盛顿大学Paul G. Allen计算机科学与工程学院的研究生。

版权由作者/所有者持有。授权给ACM的出版权利。
请求发布的权限permissions@acm.org

Fakrudeen阿里艾哈迈德

2019年6月19日07:18

无论是内容还是写作的清晰[易于阅读和理解]都是优秀的文章。谢谢你！

显示1评论

《创造智能的挑战

关键的见解

为什么可理解性问题

定义可理解性

本质上可理解的模型

了解神秘的模型

对交互式解释

解释组合搜索

最终的想法

参考文献

作者

评论

Fakrudeen阿里艾哈迈德

文章内容:

战争的无人机

更智能的人工智能将如何改变创造力

试论人工智能写作的伦理问题