ACM

ACM通信

首页 / 新闻 / 搜索深层网络 /全文

新闻

搜索深层网络

阿历克斯莱特
ACM通讯，2008年10月，第51卷第10期，14-15页
10.1145/1400181.1400187
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享分享到黑客新闻在推特上分享在Facebook上分享

这张网比它看起来要大。在主要搜索引擎的数十亿页页面之外，隐藏着一个更大的数据网络:分类广告、图书馆目录、航空公司订票系统、电话簿、科学数据库，以及其他各种信息，这些信息在很大程度上隐藏在查询表单后面。有人估计，深层网络的规模是静态HTML页面的表层网络(也被称为浅层网络)的500倍。

多年来，研究人员一直试图破解深层网络，但迄今为止，他们的大部分努力都集中在构建专门的垂直应用程序，如比较购物门户、商业智能工具，或搜索难以抓取的海外数据源的绝密国家安全项目。这些项目之所以取得成功，很大程度上是因为它们瞄准了较窄的领域，在这些领域中，搜索应用程序可以进行微调，以查询相对较少的数据库，并返回具有高度针对性的结果。

将深度网络搜索技术引入公共网络是一个更加困难的挑战。虽然像亚马逊或You-Tube这样的一些知名网站提供公共网络服务或定制的应用程序编程接口，向搜索引擎开放他们的数据库，但更多的网站并没有这样做。将这个问题乘以现在连接到Weball的数百万个可能的数据源，它们具有不同的表单处理规则、语言、编码和几乎无限的可能结果数组，你将面临一个艰巨的任务。“这是可以想象到的最有趣的数据集成问题，”前华盛顿大学计算机科学教授阿隆·哈尔维(Alon Halevy)说，他现在领导着一个谷歌团队，试图解决深网搜索难题。

回到顶部

深度网页搜索101

搜索深网有两种基本方法。借用一个钓鱼的比喻，这些方法可以被描述为拖网和垂钓。拖网渔船撒下宽网，把网拉到水面上，沿途捞起任何能找到的东西。这是一种蛮力技术，虽然不优雅，但往往会产生丰富的结果。相比之下，钓鱼需要更多的技巧。垂钓者用精确的技巧在精心选择的地点投下鱼线。这是一门很难掌握的艺术，但当它发挥作用时，它可以产生更令人满意的结果。

拖网搜索策略也被称为仓储或堆存，它涉及抓取尽可能多的Web表单，运行查询并将结果储存在可搜索索引中。虽然这种方法允许搜索引擎提前检索大量存储的数据，但它也有其缺点。首先，这种方法需要用不请自来的查询轰炸站点，这会让不知情的服务器不堪其扰。一旦数据被检索出来，它就会立即过时。Halevy的前学生、搜索初创公司Kosmix的联合创始人Anand Rajaraman说:“你是在将动态数据强制拟合到静态文档模型中。”因此，搜索查询可能返回不正确的结果。

倾斜的方法也被称为中介，包括在多个站点之间实时代理一个搜索查询，然后为最终用户联合结果。虽然调解产生了更及时的结果，但它也有一些缺点。其中最主要的问题是确定在任何给定Web表单的可能输入字段范围中，将给定的一组搜索词插入何处。传统上，中介搜索引擎依赖于开发定制的“包装器”，作为每个数据源的一种Rosetta Stone。例如，包装器可能描述如何查询一个在线目录，该目录接受姓名和名的输入，并返回一个邮件地址作为结果。在Vertica Systems公司，工程师们手工制作这些包装器，这一过程通常需要每个站点20分钟。然后将包装器添加到存储在数据库表中的主本体中。当用户输入搜索查询时，引擎将输出转换为资源描述框架(RDF)，将每个站点有效地转换为Web服务。通过在数据中查找主语-动词-对象组合，工程师可以根据常规Web搜索结果创建RDF三元组。Vertica的创始人Mike Stonebraker坦率地承认，这种亲力亲为的方法有局限性。 "The problem with our approach is that there are millions of Deep Web sites," he says. "It won't scale." Several search engines are now experimenting with approaches for developing automated wrappers that can scale to accommodate the vast number of Web forms available across the public Web.

中介搜索引擎面临的另一个主要问题在于确定首先要查询哪些资源。由于不可能一次搜索所有可能的数据源，中介搜索引擎必须精确地确定哪些站点值得搜索任何给定的查询。

Bright-Planet前首席执行官迈克•伯格曼表示:“你不能不加选择地删除动态数据库。”“你不会想去一个食谱网站询问核物理。”为了确定目标网站，经过中介的搜索引擎必须对原始查询进行某种类型的文本分析，然后使用这种解释来选择适当的网站。“分析查询并不难，”Halevy说。“最难的部分是找出该查询哪些网站。”

在Kosmix，该团队开发了一种算法分类技术，分析在运行时需要大量计算的用户查询内容，并将其映射到数百万主题的分类和它们之间的关系，然后使用这种分析来确定哪些网站最适合处理特定的查询。同样，在犹他大学计算机学院，助理教授Juliana Freire正在领导一个项目团队，致力于对整个网络表单进行爬行和索引。为了确定特定表单的主题域，他们抛出示例查询，以便更好地理解其中的内容。“幼稚的方法是查询字典里的所有单词，”弗莱雷说。“相反，我们采取了一种基于启发式的方法。我们试图对索引进行逆向工程，这样我们就可以利用它来建立我们对数据库的理解，并选择搜索哪些单词。”Freire声称，她的团队的方法允许爬虫检索存储在每个目标站点上超过90%的内容。

谷歌的深度网络搜索策略是由Halevy在Transformic(2005年被谷歌收购)的一种中介式搜索技术演变而来的，但后来演变为一种智能仓库模型，试图适应整个网络的绝对规模。Halevy说:“我们以前(在Transformic)采取的方法行不通，因为所有的领域工程都是必需的。”

相反，谷歌现在发送一个爬行器来调出各个查询表单，并为表单的内容建立索引，分析每个表单以找到它所涵盖主题的线索。例如，一个提到与美术相关的术语的页面将帮助算法猜测一些术语的子集，如“毕加索”、“伦勃朗”，等等。一旦其中一个词返回一个命中，搜索引擎就可以分析结果并改进数据库包含内容的模型。

与其依赖网站所有者来标记他们的数据，难道搜索引擎不能简单地为他们做这件事吗?

Halevy说:“在谷歌，我们想查询任何形式的信息，无论你是对在中国买马、在印度买停车罚单，还是研究法国的博物馆感兴趣。”当谷歌将每个数据源的内容添加到其搜索引擎时，它有效地发布这些内容，使谷歌能够为每个资源分配一个PageRank。将深度网络搜索资源添加到它的索引中，而不是实时调整结果，允许谷歌使用深度网络搜索来增强它现有的服务。“我们的目标是把尽可能多的有趣的内容放入我们的索引中，”Halevy说。“这与谷歌的核心使命非常一致。”

回到顶部

深度语义网?

第一代深度网络搜索引擎专注于检索文档。但随着深度网络搜索引擎继续深入数据库驱动的网络，它们将不可避免地开始交易更结构化的数据集。当他们这样做的时候，结果可能会开始产生一些与语义Web经常吹捧的结构和互操作性相同的好处。伯格曼说:“从历史上看，对深层网络的操纵一直处于文档层面，而不是数据网络层面。”“但检索部分与它是一个文档还是一个数据库无关。”

到目前为止，语义Web社区在接受深层Web的挑战方面进展缓慢，主要关注于鼓励开发人员接受可以嵌入到文档中的语言和本体定义，而不是合并到数据库级别。“语义网一直专注于浅层网络，”Stonebraker说，“但我很高兴看到语义网社区更多地关注深层网络。”

一些批评人士认为，语义网发展缓慢，因为它依赖于说服数据所有者手工构建信息结构，而这样做往往缺乏明确的经济激励。虽然语义Web方法可能对目标垂直应用程序很有效，因为有内置的经济动机来支持昂贵的加价工作(如生物医学信息)，但这样一个劳动密集型平台永远无法扩展到整个Web。“我不太相信存在论，因为它们需要大量的工作，”Freire说。“但通过聚集和分析形式的属性，有可能生成非常像本体的东西。”

虽然语义网的到来可能需要很长时间，但深度网络搜索策略为语义网的可能性带来了希望。毕竟，深度网络搜索本质上涉及结构化数据集。与其依赖网站所有者来标记他们的数据，难道搜索引擎不能简单地为他们做这件事吗?

谷歌正在探索这种方法，基于对站点内容的分析创建一层自动元数据，而不是依赖站点所有者来承担标记其内容的繁琐任务。伯格曼的创业公司Zitgist正在探索一种被称为关联数据的概念，基于这样的概念，即网络上的每一点可用数据都可能通过统一资源指示器进行处理。如果这个设想成为现实，它将有效地把整个网络变成一个巨大的数据库。伯格曼说:“30多年来，IT界的圣杯一直是在企业中消除烟囱和联邦数据。”他认为，将深网搜索与语义网结合起来的关键在于RDF。“现在我们有了一个普遍接受的数据模型，”他说。“这将使我们能够将遗留的关系模式转换为http。”

在面向公众的Web应用程序的现实世界中，深层Web和语义Web是否真的会结合在一起?现在说还为时过早。但当这种情况发生时，网络可能会变得更加深入。

回到顶部

作者

亚历克斯·赖特是一位作家和信息架构师，在纽约市生活和工作。

回到顶部

脚注

DOI: http://doi.acm.org/10.1145/1400181.1400187

允许制作本作品的全部或部分的数字或硬拷贝用于个人或课堂使用，但前提是该拷贝不是为了盈利或商业利益而制作或分发，并且该拷贝在第一页上带有本通知和完整引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定的许可和/或付费。

没有发现记录

搜索深层网络

深度网页搜索101

深度语义网?

作者

脚注

文章内容:

野火季节，科技公司希望有更多的空中眼线

数字治理的未来

人工智能作为(一个替代品)自然科学?