爬虫与刮刀

Question

爬虫与刮刀

Nay*_*ayn 53 terminology web-crawler scraper

有人可以在范围和功能方面区分爬虫和刮刀.

Answer 1

爬虫获取网页 - 即,给定起始地址(或起始地址集)和一些条件(例如,要深入的链接数量,要忽略的文件类型),它从起始点下载链接到的任何内容( S).

刮刀将已下载的页面或更一般意义上的数据格式化为显示,并(尝试)从这些页面中提取数据,以便它(例如)可以存储在数据库中并根据需要进行操作.

根据您使用结果的方式,抓取可能会侵犯信息所有者和/或有关网站使用的用户协议的权利(在某些情况下,抓取也会违反后者).许多站点在其根目录中包含一个名为robots.txt的文件(即具有URL http://server/robots.txt),以指定爬虫如何(以及如果)处理该站点 - 特别是,它可以列出爬虫不应尝试访问的(部分)URL .如果需要,可以根据爬虫(用户代理)单独指定这些.

Answer 2

Ste*_*dit 5

爬虫浏览网页，点击链接。一个例子是获取页面索引的谷歌机器人。抓取工具从表单中提取值，但不一定与网络有任何关系。

抓取工具从 HTML 中提取值，不一定是表单。 (7认同)
我不能给谷歌一个免费的通行证。谷歌是一个爬虫，是的，但也是一个爬虫。他们还如何在搜索结果中显示元描述？标题？发帖日期？它们是终极的爬虫和刮刀。 (6认同)
抓取工具从屏幕中提取价值，不一定是 HTML。例如，我曾经使用刮板从旧的大型机表单中提取值。 (3认同)

Answer 3

cun*_*aya 5

网络爬虫获取逻辑中的链接（Url - 页面），而爬虫则从 HTML 获取值（提取）。

网络爬虫工具有很多。访问页面查看一些。任何 XML - HTML 解析器都可以用来从抓取的页面中提取（抓取）数据。（我推荐Jsoup来解析和提取数据）

归档时间：	15 年，7 月前
查看次数：	28332 次
最近记录：	7 年，6 月前