acm-header
登录

ACM通信

研究突出了

技术视角:从凌乱数据构建知识库


想象一下,创建一个数据库的任务,所有高质量的特色cafés世界各地,这样你就不必满足于一个不完美的酿造。依赖Yelp等网站的评论是做不到的,因为对谁可以在上面发表评论没有限制。另一方面,你只对咖啡知识界评论过的cafés感兴趣。有一些在线资源,其中包含与您所设想的数据库相关的内容。Cafés可能刊载在颇受尊敬的咖啡出版物上,例如sprudge.combaristamagazine.com你的社交媒体流中可能会从精通咖啡的朋友那里弹出更短暂的数据。

创建这样一个数据库的任务异常困难。首先要决定数据库应该对cafés的哪些属性建模。地址和开放时间等属性即使对新手来说也很明显,但你需要咨询咖啡专家,他会给你建议更精致的属性,如烘焙剖面和酿造方法。下一步是编写程序,从这些异构源中提取结构化数据,区分好的提取和坏的提取,并结合来自不同源的提取在数据库中创建元组。作为数据清理过程的一部分,您可能希望雇佣人群工作者来确认细节,比如从文本中提取的开放时间,或者文本中两次提到的cafés是否指的是现实世界中的同一个café。在极端情况下,您甚至可以派人到café亲自查看一些细节。创建数据库的过程是迭代的,因为您的提取技术将得到改进,而且café场景经常变化。


没有发现记录

登录阅读全文

登录

如果您是ACM会员、通讯订阅用户或数字图书馆订阅用户,则使用ACM Web帐户用户名和密码登录以访问优质内容。

需要访问吗?

请选择下面的一个选项以访问高级内容和功能。

创建一个网上帐户

如果你已经是ACM会员,通信订阅者或数码图书馆订阅者,请设置网页帐户,以浏览本网站的优质内容。

参加ACM

成为ACM的会员,可以充分利用ACM卓越的计算信息资源、网络机会等优势。

订阅ACM杂志通讯

获得50多年的中华中医药学会内容的完整访问权限,并每月获得杂志印刷版。

购买这篇文章

非会员可以购买这篇文章或刊登这篇文章的杂志。
登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map