ACM

ACM通信

首页 / 杂志存档 / 2000年3月(第四十三卷第三期) / 感知-用户接口:多模式接口… /全文

ACM通信

感知用户界面:处理自然产生的东西的多模式界面

作者:莎伦·奥维亚特，菲利普·科恩
ACM通信，2000年3月，第43卷第3期，45-53页
10.1145/330534.330538
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 分享: 通过电子邮件发送在reddit分享在StumbleUpon分享在黑客新闻上分享在推特上分享在Facebook上分享

在多模态交流中，我们说话、转移目光、做手势和移动在强大的交流流中，这与图形用户界面(GUI)中按顺序输入的离散键盘和鼠标点击几乎没有相似之处。一个深刻的转变正在发生，拥抱用户的自然行为作为人机界面的中心。多模态接口正在开发中，它允许我们高度熟练和协调的交流行为以一种比以往任何时候都更透明的体验来控制系统交互。我们的声音、手和整个身体，曾经被麦克风和摄像头等传感器增强，正在成为最终透明和移动的多模式输入设备。

在过去五年中，多式联运系统的领域迅速扩大。因为螺栓(1最初的“Put That There”概念演示，在对象操作过程中处理语音和手动指向，在开发更通用的多模态系统方面取得了重大成就。最先进的多模态语音和手势系统现在处理复杂的手势输入，而不是指向，新的系统已经扩展到处理不同的模式组合，最值得注意的是语音和笔输入[9，以及言语和嘴唇动作[10］．作为推进新型多式联运系统的基础，主动的实证工作已经产生了人机多式联运交互的预测信息，这些信息正被用于指导计划中的多式联运系统的设计[7］．语音、笔和视觉等组件技术的硬件和软件都取得了重大进展。此外，为设计更通用的多式联运系统，已建立了基本的体系结构组件和框架[35，11］．最后，真正的应用程序正在构建中，从用于模拟和训练的基于地图和虚拟现实系统，到在嘈杂环境中使用的移动战地医疗系统，再到基于web的事务和标准文本编辑应用程序[9］．所有这些里程碑都表明在构建更通用、更健壮的多模态系统方面取得了进展，这将重塑日常计算任务，并在未来产生重大的商业影响。

在这里，我们总结了新的多模态系统的本质和它们的工作原理，重点是多模态语音和基于笔的输入。为了说明一个多模态语音和手势的体系结构，介绍了俄勒冈大学科学与技术研究生院的QuickSet系统。

对不同用户和使用上下文的可访问性。也许开发多模态接口最重要的原因是，它们有潜力极大地扩展计算的可访问性，使不同的非专业用户可以使用，并促进以前没有的新计算形式[6，9］．由于人们使用不同交流模式的能力和偏好存在很大的个体差异，多模态接口将增加不同年龄、技能水平、认知风格、感觉和运动障碍、母语甚至暂时性疾病的用户对计算的可访问性。这是因为多模态界面允许用户进行选择和控制他们如何与计算机交互。例如，一个视觉受损的用户可能更喜欢语音输入，就像一个重复性应力损伤的手动受损用户或她的手臂打了石膏一样。相反，有听力障碍、口音重或感冒的用户可能更喜欢用笔输入。早在键盘成为一种实用的输入设备之前，一个年幼的学龄前儿童就可以使用语音或手写绘图来控制教育应用程序。灵活的多模态界面还允许输入模式的交替，这防止了过度使用和在长时间使用期间对任何单个模态的物理损坏。就像使用键盘和鼠标时的重复压力会损伤前臂一样，声带也会因长时间使用语音系统而绷紧并最终损伤。

结合了语音和笔等输入模式的多模式系统也可以促进计算的新用途，例如，在自然环境和移动时[9］．任何单独的方式可能很适合某些任务和环境条件，但在另一些情况下不太理想甚至不合适。多模态界面允许用户在不断变化的移动使用条件下根据需要在模式之间切换。在多模态体系结构中，可以在环境变化时对输入模式进行自适应加权，从而进一步增强和稳定系统的整体性能。

性能稳定性和健壮性。开发多模式体系结构的第二个主要原因是提高基于识别的系统的性能、稳定性和鲁棒性[6］．从可用性的角度来看，多模式系统提供了一个灵活的界面，在这个界面中，人们可以练习如何有效地使用输入模式，从而避免错误。为了充分利用这些错误处理优势，必须设计多模式系统，使两种输入模式(例如，语音和钢笔)提供并行或重复的功能，这意味着用户可以使用其中一种模式来完成他们的目标。一个设计良好的多模态体系结构还可以支持两个输入信号的相互消歧。例如，如果用户说“ditches”，但语音识别器确认单数“ditch”是它的最佳猜测，那么对钢笔输入中的几个图形标记进行并行识别可以恢复正确的口语复数解释。技术人员刚刚开始发现这种架构上拉可以导致更准确和更稳定的系统性能。在未来，我们越来越有可能看到有前途但容易出错的新媒体以一种更有效地利用和稳定它们的方式嵌入到多模式架构中。

最近最令人兴奋的发现之一是，多模式系统显示出相对更大的性能优势，正是针对那些单模式系统失败的用户和使用上下文。例如，众所周知，对于儿童或任何类型的非母语口音说话者，以及在嘈杂的现场环境中或当用户移动时，单模态口语系统的识别率会迅速下降。然而，最近的研究表明，可以设计一种多模态体系结构，以缩小对这类具有挑战性的用户和使用上下文的识别差距[6，7］．因此，下一代多模式系统可能能够以一种方式利用新媒体，使技术能够比以往任何时候更广泛地用于日常用户和使用环境。

表达能力和效率。处理多模式输入的系统旨在为用户提供更强大的界面来访问和操作信息，例如日益复杂的可视化和多媒体输出功能[8］．相比之下，依赖于键盘和鼠标输入的界面在与小型移动系统、虚拟环境和其他新形式的计算交互时受到限制或不合适。由于口头和基于笔的输入是人类语言技术，它们可以轻松提供对对象、事件、空间布局及其相互关系的灵活描述。例如，在一项研究中，当将这些模式结合在一起时，有人会在地图上放置一个开放空间公园:

用户:[绘制不规则区域]“开放空间”。

相比之下，同一个人在只允许说话的情况下，会发出以下更长、更不流畅的话语:

用户:“在北湖上增加一个开放空间，以包括北湖部分的道路和北部。”
在涉及视觉空间信息的应用程序中，这种语言效率和复杂性的差异尤其明显[8］．
在最近的一项研究中，当用户使用钢笔/语音QuickSet系统进行交互时，多模式交互的速度比使用更熟悉的图形界面进行初始化模拟练习时快9倍。2］．这一巨大的效率优势包括纠正两个接口中的识别和手动错误所需的时间。与仅使用语音的快速交流相比，多模态笔/语音交互也使空间任务的任务完成时间增加了10% [8］．除了这些效率优势外，90100%的用户更喜欢在空间和非空间任务中进行多模态交互[8］．

回到顶部

多模式架构是如何工作的

多模式系统与标准gui截然不同，这主要是因为人类通信的本质，而它们的基本架构反映了这些差异。虽然gui的输入是原子的和确定的，但机器对人类输入(如语音和手势)的感知是不确定的，因此任何基于识别的系统的解释都是概率的。这意味着以前GUI中的基本事件(如对象选择)现在是需要识别和容易被误解的事件。其次，标准gui假定一系列离散事件，如键盘和鼠标的单击，而多模式系统必须处理两个或多个经常同时交付的连续输入流。系统开发人员面临的挑战是创建健壮的、新的时间敏感的体系结构，以支持人类通信模式和性能，包括处理用户的并行输入和管理基于识别的技术的不确定性。

减少或管理不确定性的一种一般方法是构建一个至少包含两个可以融合的信息源的系统。例如，人们正在进行各种努力，通过使用视觉派生的关于说话者嘴唇运动的信息，即“视位素”，来提高在嘈杂环境下的语音识别能力。10，同时从声学语音流中解读“音素”或其他特征。多模态系统用来解释语音和嘴唇运动，在视觉位和音位特征的水平上整合信号，这些信号在时间上密切相关。这样的架构是基于机器学习的音素-音素相关性，使用多个隐马尔可夫模型或时间神经网络。这种特性级架构方法通常被认为适用于具有相似时间尺度的模式。

第二种架构方法适用于语音和手势等模式的集成，它包括融合输入信号的语义。两个输入信号不需要同时发生，它们可以独立识别。这种语义融合架构方法需要的训练数据更少，软件开发过程更简单[11］．作为语义融合方法的一个例子，我们描述了QuickSet的多模态体系结构和信息处理流程。

QuickSet是一种基于代理的协作多模式系统，可在从手持电脑到墙壁大小的个人电脑上运行。3.］．该基本系统已与各种基于地图的应用程序联合开发，包括医疗信息学、军事模拟和训练、3D虚拟地形可视化和灾害管理[3.，6］．QuickSet允许用户通过语音、基于笔的手势和/或直接操作在地图或虚拟地形上创建和定位实体。然后使用这些实体填充模拟或其他基于地图的应用程序。用户可以通过说出对象的名称和特征来创建基于地图的对象，同时使用钢笔指定位置、数字和形状等信息。例如，在森林火灾管理场景中描述图1，在画火苗前进的边缘时，可以用“烧线”来表示火苗的位置。用户还可以通过指定动作来控制模拟中的对象，比如“吉普车，沿着这条路线走”，同时绘制疏散路线和车辆移动的方向。除了多模式输入外，还可以单独使用语音或手势指定命令。

为了与QuickSet交互，用户在说话和绘图时触摸屏幕来连接麦克风。当每个输入信号到达时，它的开始和结束都有时间戳。这两个信号被并行处理，如图所示图2，与特定于模态的理解组件生成的识别结果。在识别过程中，这些组件为每个模式产生一组属性/值含义表示，称为“特征结构”。这种类型的结构在计算语言学领域被广泛用于编码词汇条目、语法规则和意义表示。它们类似于XML结构，但添加了从逻辑编程派生的逻辑变量的概念和类型层次结构。为传入信号生成的特征结构为该信号提供了可选的含义假设，每个假设都被指定为正确性的概率估计。这些特征结构是部分系统解释，然后传递给多模式集成组件。

多模态集成阶段是一个结合符号和统计信息以增强系统鲁棒性的三步过程。积分器首先使用信号时间戳来确定传入的信号是单模态的还是多模态命令的一部分。为了做到这一点，QuickSet使用了来自经验数据的时间约束，这些数据表明，在特定的时间阈值内，手势先于或重叠于语音[7］．当一个信号可能是多模态命令的一部分时，QuickSet的积分器将尝试将备选特征结构与来自其他模式的特征结构结合起来，以形成对多模态话语的完整语义解释。

在同步信号后，多模态积分器可以快速地过滤替代信号解释，以实现语义兼容。兼容或合法的语义组合既可以像QuickSet中那样从语言上规定，也可以从先前交互的语料库中派生。在这个语义过滤过程之后，多模态积分器将两种模式的信息融合在一起。为了支持语义融合，QuickSet使用了逻辑编程语言中统一操作的泛化术语[5］．统一能够结合来自两个信号解释的部分信息，只要它们是一致的。不兼容的信息，例如来自错误识别假设的信息，将被排除在外。最后，如果成功统一了多个多模式解释，则从统计排名解析最终解释。这些排名是根据对口语和手势的加权概率估计得出的。

由于语音和手势是高度相互依赖的，这些最终的多模态排名并不是作为一个联合概率估计来计算的。相反，它们被计算为每个信号的概率估计的线性加权(带归一化)。为了估计权重系数，QuickSet使用了一种称为成员-团队-委员会(MTC)的新型分层识别技术[11］．见图3， MTC技术由三层分而治之识别体系结构组成，具有多个成员、多个团队和一个委员会。它使用一个标记的语料库，训练以自底向上的方式进行，一层一层。

在MTC方法中，成员是提供与输入原语(例如，笔画长度)相关的识别结果数组和概率估计的单个识别器。成员识别器可以向多个团队“领导”提供信息，然后对报告的分数进行加权。每个团队可以检查不同的数据子集，并可以应用不同的加权方案。最后，委员会对来自各个团队的结果进行加权，并将最终的识别结果作为备选多模态解释的排序列表报告。排名靠前的解释被发送到系统的“应用程序桥接”代理，该代理与用户确认系统的解释，并将其发送到相应的后端应用程序。在最近的一次评估中，QuickSet的混合MTC架构获得了95%以上的正确识别性能，在理论系统上限的1.4%以内[11］．

有许多方法可以将这种多模态信息处理流作为体系结构来实现。一种很容易理解的方法是通过远程过程调用流水线各种组件。然而，如果系统是异构的，则这种方法可能会被证明是困难的。为了提供一个支持分布式异构软件的高级层，同时屏蔽设计者对通信细节的了解，许多研究小组使用了一种多代理体系结构，如开放代理体系结构[4］．这种体系结构中的组件可以用不同的语言和环境编写，尽管每个组件都由一层软件包装，使其能够通过标准语言进行通信。产生的带有通信层的组件称为代理。代理通信语言通常使用源自语音行为理论的消息类型，但它们已被扩展到处理来自分布式系统的异步传递、触发响应、多播和其他概念。

在一些多代理体系结构中，代理直接与它们拥有信息的其他组件通信。这种设计的优点是没有中介体，尽管它在面对代理失败时可能很脆弱。作为一种替代方案，许多体系结构采用了一种方便的通信形式，其中代理不需要知道与谁交互。相反，代理通过一个已知的促进者进行通信，该促进者将消息路由到感兴趣且有能力的接收者。辅助器为在运行时连接新代理提供了一个地方，使它们能够被其他代理发现并合并到运行的系统中。图4显示了相同的基本QuickSet组件图2，但现在围绕一个中央辅助器排列，成为多代理体系结构的一部分。在操作过程中添加和删除代理时，这种体系结构已被证明是灵活的。它还支持分发、多用户协作和跨平台互操作。

自Bolt的“Put That There”原型以来开发的多模态语音和手势系统通常容易受到一些限制，包括:

功能局限于简单的点-说集成模式;
对两种语义丰富的输入模式缺乏统一的语义表示;
缺乏多模态融合的原则性通用方法;而且
缺乏快速扩展或构建新的多模式系统的通用可重用体系结构。

相比之下，像QuickSet这样的新系统可以处理复杂的手势语义和不同的集成模式。QuickSet的语义表示和语义融合方法是很好理解的自然语言处理技术，它与统计学习算法一起使用。此外，它的多代理体系结构是可扩展的，并有可能为其他类型的多模式系统提供通用体系结构。

将来，其他提供概率输入的识别器和信息源(例如，机器视觉、对话上下文)可以合并到MTC体系结构中。这些额外的信息可以用来获得更全面、上下文敏感和健壮的多模态解释。此外，基于MTC体系结构的多模式系统可以使用经验数据提供自适应权重，更成功地适应不同类型的用户集成模式[7]，以及环境噪音水平每时每刻的变化。

回到顶部

改变计算体验

随着人机界面的中心向自然的多模态行为转移，我们极其熟练和协调的通信模式将被用于在一个比以往任何时候都更透明的界面体验中控制计算机。这样的界面设计将在风格上变得更加会话化，而不是局限于命令和控制，因为许多正在处理的模式要么是面向语言的(语音、手势、笔输入)，要么涉及广义的交流(凝视模式、身体运动)。

正如Turk和Robertson在这一特殊部分的介绍性评论中所描述的，一些感知用户界面(PUIs)可能涉及基于视觉的技术，可以不引人注目地监视用户行为。组合了两种或两种以上模式的多模式接口可以包含一个主动输入模式，用户打算将此模式作为向系统发出的命令，例如语音、基于笔的手势或其他手动输入。它们还可以包括一种完全不需要用户对计算机发出明确命令的被动输入模式，例如基于视觉的跟踪，可以感知用户的存在、注视和/或身体位置。虽然被动模式可能不那么突兀，但主动模式通常是更可靠的用户意图指示器，这意味着任何基于单模态识别的系统都可能面临突兀程度和可靠功能之间的权衡。

然而，随着基于视觉的技术和感知界面的成熟，一些多模态界面正在形成一种混合或混合的界面风格，它结合了主动和被动模式。混合的多模式接口可以“临时级联”，即一种输入模式先于另一种。来自被动跟踪模式(眼睛凝视)的提前信息通常用于改进多模态系统对随后的主动模式(手动或语音输入)的预测和解释。级联主动/被动接口的一个例子是IBM MAGIC系统，该系统被动地跟踪用户对文本字段(光标位置的右、左、上或下)的注视，同时使用该信息预测光标移动的方向并调节手动跟踪指针的物理阻力[12］．这种特殊的多模式界面的目标之一是减少用户的手工疲劳和提高输入效率。

混合界面可能比纯被动跟踪系统更可靠，因为主动输入模式可以澄清用户意图，否则可能会有歧义。然而，与仅仅是主动模式相比，被动模式的早期信息也可以提供预测能力，增强系统的鲁棒性并提供可用性优势。因此，在未来，新的混合多模态接口可能为用户提供更大的透明度、更好的控制和普遍改进的可用性体验，同时还支持比单模态被动监视PUI更广泛的应用程序功能。

回到顶部

推进计算机科学领域

多模式系统显然将对计算机科学的各个领域产生影响。它们最初将补充并最终取代当今计算机的许多应用程序的标准gui。它们也将成为整合人工智能领域许多不同能力的焦点，如机器视觉、自然语言处理、知识表示、推理和机器学习。这些功能最有可能在基于分布式多代理框架的符号/统计混合体系结构中合并。

多模态接口也将与分布式计算一起发展，并将允许用户访问和控制一个分布式信息空间，在这个空间中应用程序、对象和服务器的概念都是隐藏的。用户不应该需要知道如何将他们的信息处理和交流目标分解为各个软件组件提供的功能。相反，广义上构想的“系统”将把高级目标分解为子目标，由自主代理团队实现，这些代理调用服务、从数据库或Web检索信息、制定警报以监视感兴趣的事件以及其他功能。

在移动计算领域，多模态接口将促进在极为不同的使用环境中广泛使用小型网络设备，用于通信和计算目的。与简单地提供单一功能的信息设备不同，多模式接口将促进小型设备的多功能，部分原因是语音和笔等输入模式的可移植性和表达能力。

推进最先进的多模态系统将需要计算机科学以外的多个领域的多学科专业知识，包括语音和听觉科学、知觉和视觉、语言学、心理学、信号处理、模式识别和统计学。这个新的研究议程的多学科性质有几个含义。要想作为一个领域成功地发展，这意味着计算机科学将需要在其世界观上变得更广泛、更综合，并开始鼓励和奖励那些成功跨越其狭窄定义领域边界的研究人员。这也意味着，任何单个研究小组都不太可能在整个光谱范围内进行有意义的研究。因此，多模式研究人员和站点之间的协作研究和“社区建设”将是迫切需要的，以在代表不同关键学科和组成技术的人员之间建立必要的关系。

除了在这些不同群体之间交流思想和观点外，还迫切需要对学生和初级研究人员进行交叉培训。就像口语系统一样，多模态技术并不完全适合传统的学术部门框架。为了给未来的学生提供适当的教育机会和资源，需要建立新的多学科教育项目，教授推进下一代多模态系统所需的相关组件技术、科学和工程视角、研究方法和团队合作技能。这样的项目可以在现有的学术部门以及旨在促进知识创业和新千年培训项目的新信息技术学院中进行培养。

回到顶部

结论

多模式系统是一种新兴的技术，它提供了富有表现力的、透明的、高效的、健壮的和移动的人机交互。对于各种任务和计算环境，它们也是用户的首选。它们日益复杂的设计和实现是将人机交互的平衡更接近于人的一个重要关键。

回到顶部

参考文献

1.放置:在图形界面上的声音和手势。计算机图形学14， 3(1980)， 262270。

2.Cohen, p.r.， Johnston, M, McGee, D, Oviatt, s.l.， Clow, J，和Smith, I.多模式交互的效率:一个案例研究。在国际口头语言处理会议论文集。(悉尼,1998),249252。

3.科恩，约翰斯顿，M.，麦基，D.，奥维亚特，皮特曼，J.，史密斯，I.，陈，L.，和克劳，J.快速设置:分布式应用的多模态交互。在第五届ACM国际多媒体会议论文集(1997) acm, ny, 3140。

4.Cohen, p.r.， Cheyer, A, Wang, M，和Baeg, S.C.一个开放的代理架构。AAAI '94软件代理春季研讨会系列AAAI，(门洛帕克，CA, 1994);转载的阅读在代理。摩根·考夫曼，1997,197204。

5.Johnston, M, Cohen, p.r.， McGee, D, Oviatt, s.l.， Pittman, J.A，和Smith, I.基于统一的多模式集成。在第35届计算语言学协会年会论文集(纽约，1997)，281288。

6.多模态体系结构中识别错误的相互消歧。在计算机系统中的人为因素会议论文集(CHI'99)ACM,纽约,576583年。

7.多模式交互的十个迷思。Commun ACM 42岁11，(1999年11月)，7481。

8.多模式交互地图:为人类性能设计。人机交互12,(1997), 93129。

9.Oviatt, s.l.， Cohen, P.R, Wu, L.，Vergo, J.， Duncan, L.， Suhm, B.， Bers, J.， Holzman, T.， Winograd, T.， Landay, J.， Larson, J.和Ferro, D.设计多模态语音和手势应用的用户界面:最先进的系统和2000年及以后的研究方向。新千年的人机交互．J.卡罗尔，埃德森-韦斯利，波士顿(出版中)。

10.鲁宾，梵提奥蒂斯-贝特森，E.和伯努瓦，C.，编。视听语言处理。言语交际26日(1998)、12。

11.Wu L.， Oviatt, S.和Cohen, P.多模态集成:统计观点。《IEEE多媒体汇刊》4(1999), 334342。

12.翟，S，森本，C，和Ihde, S手动和凝视输入级联(MAGIC)指向。在计算机系统中的人为因素会议论文集(CHI'99)Acm, ny(1999)， 246253。

回到顶部

作者

沙龙Oviatt(oviatt@cse.ogi.edu)和菲利普•科恩(pcohen@cse.ogi.edu)是俄勒冈大学科学与技术研究生院(OGI)计算机科学与工程系的教授，也是OGI人机通信中心(www.cse.ogi.edu/CHCC)的联合主任。

回到顶部

脚注

本研究得到美国国家科学基金资助。IRI-9530666，由国家科学基金和创新专项扩展(SEC)资助。合同DABT63-95-C-007和N66001-99-D-8503来自DARPA的信息技术和信息系统办公室。来自ONR的N00014-95-1-1164，以及来自波音、英特尔和微软的赠款、礼物和设备捐赠。

回到顶部