acm-header
登录

ACM通信

BLOG@CACM

你好,电脑


IBM Almaden研究员Tessa Lau说

四年前,当我买了我的第一个车载GPS装置时,感觉就像尝到了未来的味道。这个装置知道我在哪里,不管我转错了多少弯,它都能告诉我怎么去我想去的地方。这是一个终极的自适应界面:无论我从哪里开始,它都创建了一条自定义的路线,将我引导到我的目的地。

可惜的是,我的第一个GPS在一次盗窃中过早地结束了,那是一个漆黑的夜晚,一条空荡荡的街道,还有一扇被打碎的窗户。

我的新GPS是Garmin nüvi 850,它有一个很酷的新功能:语音激活控制。

语音识别为车内人机界面带来了一个新的维度。当你开车时,你实际上是部分失明,没有手。能够只用你的声音与计算机交谈并指示它,这是令人惊讶的授权,这让我对基于语音的界面的未来感到兴奋。

nüvi的界面简单且设计良好。你可以把一个无线按键激活麦克风安装在你的方向盘上。当你激活麦克风时,一个小图标会出现在GPS屏幕上,表示它正在听,它会播放一个简短的“我在听”的音调。然后,你可以说出屏幕上出现的任何按钮的名称,或者某个始终处于活动状态的全局命令(例如,“主菜单”或“音乐播放器”或“回家”)。音乐的音调表明它是否成功地理解了你的话语。如果它识别了你的命令,它会把你带到下一个屏幕,并口头提示你输入下一个信息(例如,你目的地的街道地址)。大多数常见的GPS功能都可以被激活(通过语音确认),甚至不需要看屏幕。

列表(例如,餐厅名称)用数字标注,所以你只需要说出你想从列表中选择的项目的编号。然而,它似乎也能正确识别列表中任何内容的语音版本,即使它没有显示在当前屏幕上(例如,在音乐播放器中说出艺术家的名字)。

到目前为止,在我的测试中,尽管路上的环境普遍很吵,但它在解释我的讲话时出人意料地准确。

这个界面最让我惊讶的是,基于语音的控制是如此有趣和快速,以至于我再也不用触屏了。语音识别技术在人工智能领域已经存在了几十年,现在终于成熟到可以在消费设备中使用的地步。

语音激活UI的强大之处在于它可以通过语音在界面中跳跃。你不必通过点击按钮来浏览几个不同的屏幕,你可以通过说出它的名字直接跳到想要的屏幕。这让人想起gui和命令行之间的区别;gui更容易学习,但是一旦掌握了命令行,命令行提供了更高的效率和功能。与命令行一样,需要进行一些实验来发现什么命令在什么时候可用;我还在学习我的GPS以及如何更有效地控制它。

嘉明,你在nüvi 850上做得很好。我迫不及待地想看看未来会发生什么!(在路上用语音收发电子邮件?这似乎触手可及。)


免责声明:在此表达的观点不一定代表我的雇主ACM或除我以外的任何其他实体的观点。


评论


黛布拉Goudy

我最近读到的关于语音识别的信息表明,设备正确识别命令的能力在很大程度上取决于环境的安静程度。我经常发现我手机上的语音系统不能很好地工作,除非我找一个安静的地方使用它们。因此,很高兴听到Garmin找到了一种有效的方法来解释驾驶时的指令——你注意到,驾驶环境可能很嘈杂。

当你谈到未来的改进时,它提出了一个问题,驾驶员在路上应该能做什么。同时处理多项任务是很好的,但我不确定在开车时收发电子邮件是否是个好主意……


杰西Iswaraputra

只要司机或乘客不在谈话中,或者不在车内开着大声的音乐,车内的环境应该比手机使用者的环境更安静。

开车时发邮件是可以的,只要是短信息,而不是用户需要专注的长对话。

我想看到的是一个积极维护的开源项目,它将允许更多的人使用语音识别技术。我认为大多数最好的语音识别技术仍然属于专利技术的范畴。

但是http://freespeech.sourceforge.net/或http://www.voxforge.org/是一个好的开始。


显示所有2评论

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map