今天是第三届ACM国际Web搜索和数据挖掘会议的第一天(WSDM 2010),在纽约大学布鲁克林理工学院举行。WSDM是一个年轻的会议,它已经成为这些领域研究的顶级发布场所。与一些较大的会议相比,WSDM是单一轨道的,而且感觉更亲密和连贯——即使有超过200名与会者。
这一天以一场雄心勃勃的主题演讲开始Soumen Chakrabarti(印度理工学院孟买分校):“弥合结构化与非结构化差距”。他描述了一个从汤到坚果的体系结构,用于注释web文档,并使用结构化查询语言对它们执行复杂的推理。但也许这个雄心勃勃的方法是实际的:它利用我们现有的网络——而不是等待语义网的出现——并且已经有了一个使用5亿份文档的原型。
第一篇论文集中在网络搜索。在这五篇论文中,两篇强调内容的时间方面,一篇考虑社交媒体推荐,一篇侧重于识别多词查询中的概念。该会议的最后一篇论文建议使用锚文本作为比查询日志更广泛使用的输入,以支持查询重构过程。它也吸引了最多的观众的注意力交互在信息检索会议上常常是一个利基,它总是引起强烈的兴趣和意见。
接下来的会议主要讨论标签和建议。一些收获:用户产生的标签类似于专家设计的主题;个体的“个性”可以被翻译成聚合的大众分类法;矩阵分解方法可以产生可解释的建议。
当天的最后一个会议讨论了信息提取。其中一篇论文使用了基于模式的信息提取方法,展示了我们从那以后所取得的进展马蒂赫斯特的开创性的工作在这个问题上。另一个提供了一个类似sql的系统,用于类型化实体搜索,并提供了一个可公开访问的实时原型。最后一篇论文讨论了一个在舰导弹车间从一堆不一致的资料中提炼出真相的问题。
没有发现记录