为什么搜寻器体系结构中需要DNS解析器?

Osc*_*ros 3 dns network-programming web-crawler

在我阅读的有关爬网程序建议的每篇论文中,我都看到一个重要的组成部分是DNS解析器

我的问题是:

为什么有必要?我们不能直接向http://www.some-domain.com/发出请求吗?

Rob*_*vey 5

DNS解析是Web爬网中众所周知的瓶颈。由于域名服务的分布式性质,DNS解析可能需要在Internet上进行多个请求和往返,这需要几秒钟甚至更长的时间。马上,这危及了我们每秒获取数百个文档的目标。

DNS解析还有另一个重要困难。标准库中的查找实现(可能由开发爬虫的任何人都可以使用)通常是同步的。这意味着,一旦对域名服务提出了请求,该节点上的其他搜寻器线程将被阻止,直到第一个请求完成为止。为了避免这种情况,大多数Web搜寻器都将自己的DNS解析器实现为搜寻器的组件。

http://nlp.stanford.edu/IR-book/html/htmledition/dns-resolution-1.html