acm-header
登录

ACM通信

研究突出了

技术视角:终极试点计划


其中一个场景是矩阵在美国,两名人类抵抗组织的领导人被困在摩天大楼的屋顶上。逃生的唯一方法是乘坐直升机,但这两种方法都无法操作。人类会迅速调用直升机飞行的“飞行员程序”,通过脑机接口立即吸收知识,并在关键时刻起飞。

以下是科茨、阿贝尔和吴恩达的一篇论文,他们描述了一个同样了不起的壮举:通过观看几分钟的人类专家表演,学会了飞行超人品质的直升机特技飞行。在你阅读这篇论文之前,我们建议你先在http://heli.stanford.edu/

作者详细地描述了这个问题以及解决它所需要的技术革新。这篇论文的重要性不仅在于这些创新,还在于它阐述了现代人工智能研究的风格。人工智能已经以无缝的方式发展,涵盖了统计学习、动态系统和控制理论等领域的技术,并重新整合了许多人认为已经走自己的路的领域,如机器人、视觉和自然语言理解。统一的关键是出现了有效的概率推理和机器学习技术。作者完美地阐明了这一趋势,解决了机器人领域多年来一直抵制传统控制理论技术的一个问题。

学习驾驶直升机意味着学习从国家映射到控制行动的政策。映射应该采取什么形式,应该向学习系统提供什么信息?一些早期的工作采用了观察专家表演的方法来学习驾驶小型飞机,1使用监督学习方法并将策略表示为决策树。在这种方法中,每个专家行动都是要学习的函数的积极例子,而每个没有采取的行动都是消极例子。不幸的是,当任何干扰使飞机进入训练中看不到的状态时,由此产生的政策就会惨败。也许这并不奇怪,因为政策不知道车辆是如何工作的,也不知道飞行员想要做什么。

相反,作者将问题表述为马尔可夫决策过程(MDP),其中转换模型指定车辆的工作方式奖励函数指定试点尝试执行的操作最优政策最大化整个轨迹的预期奖励总和。当然,一开始过渡模型和奖励函数是未知的,所以学习系统不能在没有获得更多信息的情况下计算出最优策略。在确立的环境中强化学习在美国,学习系统在世界上行动,观察结果和回报。对于许多问题,学习一个模型和一个奖励函数比直接学习一个政策需要的经验更少,而经验在机器人学习中总是短缺的。

白板强化学习不适用于直升机特技飞行,原因有二:一是在学习初期会有太多的坠机事故;第二,即使是实验者也不知道奖励函数,因此奖励信号不容易提供给学习系统。的学徒学习作者采用的设置避免了这两个问题,通过学习专家的行为。

通过观察专家飞行时直升机的轨迹,学习系统可以获得一个在这些机动可能访问的状态空间区域内相当准确的过渡模型。的作用先验知识这里是至关重要的;在学习模型参数的同时,利用一般的直升机动力学知识提前确定了模型的结构。

从专家行为中学习奖励函数的任务被称为“反向强化学习”。在20世纪90年代末引入人工智能,这在经济学中已经有很长的历史了。2对于直升机特技飞行,奖励函数规定了理想的飞行轨迹是什么,这样就能获得高奖励,以及如何惩罚偏离。这一信息隐含在专家的行为及其可变性中。为了解释这种可变性,作者开发了一个轨迹的概率生成模型,借鉴了语音识别和生物序列比对的方法来处理时间的变化。在学习了几次专家的表现后,奖励函数实际上定义了一个比专家所能演示的更好的轨迹,最终自动直升机的表现超过了它的人类老师。

作者在这一艰巨任务中的成功反映了我们领域的根本进步。虽然在其他困难的机器人任务上取得类似的成功还不是现成方法的常规应用,但学徒制学习技术为进步提供了一个看似合理的模板。

回到顶部

参考文献

1.Sammut, C., Hurst, S., Kedzier, D.和Michie, D.学习飞行。在《实习生录》。机器学习(1992)。

2.基于动态劳动力需求计划的合理预期估计。J.政治经济学86(1978), 10091044。

回到顶部

作者

斯图亚特·罗素是计算机科学的教授,加州大学伯克利分校电气工程与计算机科学系的系主任,以及通信的研究突出了董事会。

劳伦斯扫罗是加州大学圣地亚哥分校计算机科学与工程系的副教授,也是通信的研究突出了董事会。

回到顶部

脚注

DOI: http://doi.acm.org/10.1145/1538788.1538811


©2009 acm 0001-0782/09/0700 $10.00

允许制作本作品的全部或部分的数字或硬拷贝用于个人或课堂使用,但前提是该拷贝不是为了盈利或商业利益而制作或分发,并且该拷贝在第一页上带有本通知和完整引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。

数字图书馆是由计算机协会出版的。版权所有©2009 ACM有限公司


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
文章内容:
Baidu
map