网页抓取和网页抓取有什么区别?

was*_*ans 85 search-engine web-crawler web-scraping

抓取和网络抓取之间有区别吗?

如果存在差异,那么为了收集一些网络数据以供以后在定制搜索引擎中使用的数据库,最好的方法是什么?

Ben*_*Ben 109

抓取将基本上是谷歌,雅虎,MSN等所做的,寻找任何信息.刮痧通常针对某些网站,针对特定数据,例如用于价格比较,因此编码方式完全不同.

通常刮刀会定制到它应该抓取的网站,并且会做(好的)爬虫不会做的事情,即:

  • 不考虑robots.txt
  • 将自己标识为浏览器
  • 提交带有数据的表单
  • 执行Javascript(如果需要像用户一样行事)

  • @Abdul 在 HTTP 请求中,你可以指定一个“User-Agent”属性来标识你自己。例如,如果您将其设置为“Mozilla/5.0 ... Chrome”或 Chrome 使用的内容,则您的抓取工具看起来就像服务器的浏览器。 (2认同)

Dav*_* J. 58

是的,他们是不同的.在实践中,您可能需要同时使用两者.

(我必须跳进去,因为到目前为止,其他答案都没有达到它的本质.他们使用的例子,但没有明确区别.当然,他们是从2010年!)

使用最小定义的Web抓取是处理Web文档并从中提取信息的过程.您可以在不进行网页抓取的情况下进行网页抓取.

使用最小定义的Web爬行是从种子URL列表开始迭代查找和获取Web链接的过程.严格来说,要进行网页抓取,您必须进行一定程度的网页抓取(以提取网址).

要清除其他答案中提到的一些概念:

  • robots.txt旨在应用于访问网页的任何自动化过程.所以它适用于爬虫和刮刀.

  • "正确"的爬行器和刮刀都应该准确识别自己.

一些参考:


Chr*_*den 7

AFAIK Web Crawling就是谷歌所做的 - 它围绕一个网站查看链接并构建该网站布局的数据库及其链接到的网站

Web Scraping将是一个网页的加速分析,用于加载一些数据,EG加载BBC天气和翻录(刮除)天气预测并将其放置在其他地方或在另一个程序中使用它.