acm-header
登录

ACM通信

BLOG@CACM

SIGIR 2017的主题演讲


小林美

小林美

你好,欢迎光临!

40thACM SIGIR会议在主会议上有两个主题演讲。第一个主题演讲,”回顾过去:回顾网络搜索的前代史,作者是Stephen Robertson(伦敦城市大学名誉教授、剑桥格顿学院终身研究员、微软剑桥研究院15年的资深研究员),他带领我们回顾了信息检索作为一门学科的演变,从“完全在计算机领域之外的漫长而庄严的历史”开始。讲座重点介绍了前互联网时代的信息检索(IR)概念和方法是如何促成网络搜索引擎的发展和成功的:

“网络搜索引擎世界的真正成就之一是将大规模的基本技术结合起来利用自然语言查询和搜索输出排序的思想,反向文件和自由文本索引。到那时为止,这些最后的成果主要局限于研究系统。不是搜索引擎发明的(甚至没有重新发明)搜索输出排名,他们调整和发展了它,并添加了新的证据。”


Stephen Robertson

然而,将基本的、前互联网时代的IR技术转化为商用网络搜索引擎并非易事。要想找到可行的、生产层面的适应,就需要在低效、迂回的道路上磕磕绊绊,有些甚至没有结果。罗伯逊教授的演讲对那些还没有在工作中经历挫折和失败的年轻研究人员特别有价值。此外,讲述的轶事可以帮助他们避免重复过去的一些错误。与我交谈过的许多学生都觉得我的演讲很吸引人,因为他们无法想象没有互联网的世界是什么样子。对他们来说,无线连接和高质量的搜索引擎是一种廉价的资源,就像饮用水或电力一样。

罗伯逊的主题与约尔·马雷克的主题非常吻合。邮件搜索:越来越个人化了!Yoelle的演讲始于她从谷歌(在那里她的团队领导推出了谷歌建议,查询自动完成功能)到雅虎(在那里她一直担任研究副总裁,领导雅虎邮件搜索等工作。她是Technion董事会和Technion管理委员会的成员,并于2013年被任命为ACM Fellow)。Yoelle展示了Web和邮件搜索的世界与想象的大不相同。Web搜索的目的是找到与用户查询相关的一个(而不是所有)文档。用户不知道是否会显示所有相关文档,但如果搜索引擎至少返回一个满足其需求的高度相关文档,用户就会感到满意。例如,来自顶部页面查询的一个高质量结果可能会让用户满意,因为用户不知道搜索引擎遗漏了许多其他同样相关的结果。


Yoelle Maarek

相比之下,用户知道自己的邮箱,所以目标是明确的:,“我在几天前,几周或几个月前读过的电子邮件,即使我不记得确切的时间,日期,以及能在收件箱里找到它的细节。(附注:年纪大的人会记得,当电子邮件出现并开始扩散到工作场所和我们的日常生活中时,它为《纽约客》的深夜喜剧演员和漫画家提供了无尽的素材:“在这个世界上,除了死亡、税收和电子邮件,没有什么是确定的。”处理电子邮件已经从幽默变成了本质;不幸的是,我们中的许多人似乎正在输掉这场战斗。)

第二个重要区别是用户对电子邮件收件箱的所有权意识。虽然网络被认为是一种西部大荒,搜索引擎帮助我们找到有用的信息,而电子邮件收件箱被视为我们非常私人的私人空间,就像一个人的卧室(作为孩子)或家(作为成年人)。有趣的是,这种所有权意识阻碍了智能电子邮件搜索的采用。使用智能搜索工具来帮助制定和优化查询,结合按相关性排序(从最相关的开始)显示结果,可以显著减少定位特定电子邮件所需的时间。尽管如此,大多数邮件服务(如Gmail和Outlook.com)仍然按照时间顺序列出搜索结果,因为用户相信它们知道找到特定电子邮件的最佳方法,类似于在自己的房间或家里找到放错了地方的物品,而且使用相同的搜索方法和检索相同的屏幕格式有一种舒适感。电子邮件供应商不希望失去失望的客户,因为与学术界不同,商业必须适应客户的偏好;回忆的格言:客户就是版税;顾客永远是对的

作为一个折衷的解决方案,谷歌通过Gmail收件箱而且雅虎邮箱引入了一种混合解决方案,在传统的按时间顺序排列的结果之上显示一些按相关性排序的结果,以保持用户的满意度。开发和引入新的GUI一直是一个挑战。近年来,大部分联网用户都在使用移动设备,这迫使开发者考虑单一的显示风格是否也适用于台式机、手机和平板电脑。幸运的是,手机用户习惯于滚动,所以折衷的电子邮件搜索解决方案效果很好。

在SIGIR之前,我对亲眼见到约尔·马雷克的前景感到兴奋。她的演讲比我想象的更有趣,内容也更丰富。Yoelle是一个非常有魅力的演讲者,与观众很好地联系在一起。她首先让人们举手,如果他们对自己的电子邮件收件箱感到满意:存储管理、搜索等。有几秒钟没有人举手,直到一个聪明的家伙举起了手,让演讲者难堪。然后,彻底参与的观众被问及采用和经常使用电子邮件工具,如文件夹。不出所料,观众是普通大众中不具代表性的样本。当30%-40%的观众举手时,只有10%的普通公众是积极的“归档者”,他们使用文件夹来组织他们的信息。在宣布观众是"绝望的(也许是那些在屏幕前花太多时间的无望的极客和电脑迷),她开始了她的演讲;那时,我们已经被迷住了。就在技术内容变得有些晦涩的时候,Yoelle通过引用《指环王》中的一个比喻,引入了情感上的、个人对电子邮件收件箱的所有权的概念,让我们重新焕发了活力:佛罗多(像咕噜一样)被自己的“收件箱”所吸引时的形象。珍贵的,至尊魔戒。

问答环节有一个有趣的惊喜。如何处理死者的电子邮件正成为一个日益严重的问题。一些机构会删除这些文件,而另一些机构会将它们存档一段时间,以防它们可能作为法律证据和/或被传唤。美国政府走了一条全新的道路,开始了一项将志愿者的电子邮件存档的实验,这是归档杰出人物历史文件努力的一部分。搜索死者的电子邮件与个人电子邮件搜索截然不同,因为检查电子邮件的人不一定知道他们在寻找什么。这种搜索与一般的Web搜索也有很大的不同。

我有幸参加了另外两场关于对话搜索系统的主题演讲,旨在以更自然、更友好的方式与人类互动。的研讨会上信息检索的会话方法在会议的最后一天,工业和学术界的研究人员正在进行的工作。该活动由位于教堂山的北卡罗来纳大学的Jaime Arguello、澳大利亚RMIT大学的Lawrence Cavedon、日本筑波大学的Hideo Joho、谷歌的Filip Radlinski和微软的Milad Shokouhi组织。

在他早上的主题演讲中,搜索失败了?大家一起说, Ron Kaplan(亚马逊副总裁、亚马逊搜索首席科学家、斯坦福大学语言学副教授)向我们介绍了一些场景,展示了构建电子商务搜索系统的难度。为了说明对交互式对话系统的需求,他举了一些简单的例子,当输入到传统搜索引擎时,这些例子会失败。例如,在eBay上输入查询“红鞋带鞋“是:看起来很普通的鞋子(不是红色的),一件红色的连衣裙,还有一包十来双彩虹色的鞋带。对于一个网络搜索引擎来说,“没有罗杰·摩尔的007电影“也不成功;它检索到詹姆斯·邦德的维基百科页面,以及关于詹姆斯·邦德和/或罗杰·摩尔的各种页面。查询”收购仁科谁?”与“仁科收购了谁?对仁科的调查也得出了类似的结果,但两家公司都没有做出恰当的区分;后者确实专注于收购,只是不是正确的收购。


罗恩·卡普兰

罗恩开始进行更复杂的搜索,寻找一种大多数人不经常购买的商品的替代品。就拿生活在厨房水槽下面的垃圾处理器来说。罗恩输入”垃圾处置进入亚马逊(Amazon.com)搜索网站,搜索到大量的垃圾处理工具。问题已经演变成选择一个适合他需要的垃圾处理装置;例如,它应该是一个家庭。但即使是在普通家庭中,一些人可能会研磨很多硬的、纤维状的蔬菜,而另一些人可能很少使用研磨机制。幸运的是,亚马逊网站通过在屏幕左侧的菜单上提供分类处理机来帮助客户:功率、品牌、……然而,与传统的五金店不同,电子商务网站不能对简单的问题提供快速的答案,例如:品牌和功率重要吗?这些与幂相关的数字是什么?如何为我的用例选择最好的;例如,定期磨蔬菜和水果的果皮?他猜了一下,买了一台工作非常好而且相对安静的垃圾处理机。

事实证明,降低噪音是由一个柔软的橡胶盖子实现的,这个盖子有一个挡板,一旦垃圾进入处置器就会关闭。然而,带盖子的盖子使它很难将垃圾推入处置机磨碎。合乎逻辑的解决办法是买些东西把食物塞进垃圾桶。于是罗恩回到亚马逊网站,尝试了这个查询。”把食物推下垃圾桶的东西“还找回了很多食物。罗恩很沮丧,只好开车到附近的一家五金店,向售货员询问他需要的商品的名称。事实证明是这样的垃圾填充物.事实上,这个问题垃圾填充物在亚马逊上找到了几本适合罗恩需要的书。Walmart站点为相同的查询检索了垃圾处理。

从这次搜索经验中得出的结论是:对话可以是解决购买时出现的问题的一种有效、高效和愉快的方式。这样的对话在电子商务网站中如何实际工作?(1)用户输入查询。(2)用户对输入查询得到了很好的答案,但是有太多的答案。(3)虚拟代理检测到用户需要帮助。(4)虚拟代理发起“恢复对话”,以指导用户改进查询和/或提供信息(例如,预期用途所需的电力;品牌、保修、生产地点等信息)。

Ron最后提出了一个深刻的问题:在电子商务网站上提供对话界面似乎是个好主意,但这是所有网站的未来吗?可能不会,希望不会。例如,使用大多数旅游网站提供的带有搜索引擎、对话框和下拉菜单的界面,可以更有效地执行购买机票和预订酒店房间的操作。一键搜索是最理想的,随着完成任务所需对话(问答)数量的增加,不满意程度也会增加。平衡和管理用户期望对客户满意度很重要。

罗恩极具娱乐性和信息量的演讲为杰森·威廉姆斯下午的主题演讲奠定了基础。”面向任务的会话系统的端到端学习他是微软AI研究院对话系统组的经理。研究人员的最终目标是设计和实现一个智能对话系统,不需要对所有可能的对话进行编程响应。为了了解目前的技术会发生什么,Jason展示了一个由他在微软研究院的同事实现的例子,一个神经网络训练了大量的日常对话数据集。


杰森。威廉姆斯

在Robertson的演讲之后,这种方法在面向任务的对话中失败就不足为奇了。尽管对话系统的回答在语法上是正确的,语义上是合理的,但它们显然不适合面向任务的对话系统。Jason举了两个例子,在亲密朋友之间的闲聊中可能是可以接受的,但对于一个大公司的(虚拟)客户服务代理来说就不适用了:

西雅图的天气怎么样?

A1:没那么糟

我需要重置我的密码

我相信你有。

Jason继续展示了如何从非常少的特定于领域的培训对话框创建面向任务的对话系统,并将其与后端API调用集成以读取和写入数据。详情请见从ACL。

收集适当的会话数据显然是构建会话IR系统的核心问题。这一发现促使微软的一个相关团队使用成对的人来收集信息搜索对话。一个人充当信息搜寻者,而另一个人充当客户服务代理人。目标是汇编两个人之间自然对话的大量数据集,以确定:代理表现出的好行为和坏行为;探索者表现出满意/不满意的行为;促进或阻碍任务进展的对话结构;可接受的会话规范,以及其他有助于虚拟代理设计的有用属性。我强烈推荐来自研讨会,其中有更多关于对话建模、实验设置的细节,以及其他机构关于对话系统的相关工作的指针。

这次报告和研讨会上的许多其他工作都提到了为训练虚拟代理创建合适的数据集的困难。目前,神经网络、监督学习和机器学习方法的应用是研究的热点。科学家们似乎开始意识到,没有一种适用于大多数商业场景的通用算法。机器可能需要学习模仿人类的经验,通过培训和在职试错来提高专业技能。为执行高度特定任务的虚拟代理定制训练数据将是解决方案的重要组成部分。

非常荣幸能邀请到来自学术界的Jason Williams作为演讲嘉宾,他对理解人类对话、对话和情感有着深刻的见解。我相信,研讨会激发了与会者的兴趣,使他们能够更多地了解IR以外的学科的最新进展,这也是构建下一代搜索系统的重要贡献者。我还相信,未来合作的友谊是在吃饭和喝咖啡的间隙建立起来的。

主会议的主题和研讨会的主题配合得非常好,从IR发展到搜索引擎的历史,到为雅虎的大众部署一款产品。,最后展望未来——通过虚拟代理检索会话信息。感谢主办方成功地将杰出的演讲者们邀请到东京,也感谢那些花时间和精力来到日本的演讲者们,干杯!

请继续收看。接下来:博客#5 - SIGIR 2017总结和闭幕博客…

这是东京ACM SIGIR 2017年的博客#4。以前的博客:

博客# 3SIGIR2017:多样性和包容性

博客# 2IR中的神经网络:全天教程

博客# 1欢迎来到SIGIR 2017

小林美现任NTT通信公司数据科学/文本分析经理。


评论


桑杰辛格

所有的全体会议和邀请的会议的总结对那些不能参加SIGIR 2017的人来说是非常翔实和鼓舞人心的。谢谢梅的努力。


显示1评论

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map