爬虫与刮刀

Nay*_*ayn 53 terminology web-crawler scraper

有人可以在范围和功能方面区分爬虫和刮刀.

Jer*_*fin 84

爬虫获取网页 - 即,给定起始地址(或起始地址集)和一些条件(例如,要深入的链接数量,要忽略的文件类型),它从起始点下载链接到的任何内容( S).

刮刀将已下载的页面或更一般意义上的数据格式化为显示,并(尝试)从这些页面中提取数据,以便它(例如)可以存储在数据库中并根据需要进行操作.

根据您使用结果的方式,抓取可能会侵犯信息所有者和/或有关网站使用的用户协议的权利(在某些情况下,抓取也会违反后者).许多站点在其根目录中包含一个名为robots.txt的文件(即具有URL http://server/robots.txt),以指定爬虫如何(以及如果)处理该站点 - 特别是,它可以列出爬虫不应尝试访问的(部分)URL .如果需要,可以根据爬虫(用户代理)单独指定这些.


Ste*_*dit 5

爬虫浏览网页,点击链接。一个例子是获取页面索引的谷歌机器人。抓取工具从表单中提取值,但不一定与网络有任何关系。

  • 抓取工具从 HTML 中提取值,不一定是表单。 (7认同)
  • 我不能给谷歌一个免费的通行证。谷歌是一个爬虫,是的,但也是一个爬虫。他们还如何在搜索结果中显示元描述?标题?发帖日期?它们是终极的爬虫和刮刀。 (6认同)
  • 抓取工具从屏幕中提取价值,不一定是 HTML。例如,我曾经使用刮板从旧的大型机表单中提取值。 (3认同)

cun*_*aya 5

网络爬虫获取逻辑中的链接(Url - 页面),而爬虫则从 HTML 获取值(提取)。

网络爬虫工具有很多。访问页面查看一些。任何 XML - HTML 解析器都可以用来从抓取的页面中提取(抓取)数据。(我推荐Jsoup来解析和提取数据)