可扩展/可定制的Web爬网引擎/框架/库？

Question

可扩展/可定制的Web爬网引擎/框架/库？

ehs*_*nul 2 language-agnostic web-crawler hyperlink

我有一个相对简单的案例.我基本上想要存储各种网站之间链接的数据,并且不想限制域名.我知道我可以使用一些http客户端库编写自己的爬虫,但我觉得我会做一些不必要的工作 - 确保不会多次检查页面,找出如何阅读和使用robots.txt文件,甚至可能试图让它并发和分布,我确信还有很多其他我尚未想到的事情.

所以我想要一个用于网络爬行的框架来处理这些事情,同时允许我指示如何处理响应(在我的例子中,只是提取链接并存储它们).大多数抓取工具似乎都假设您正在为搜索索引网页,这并不好,我需要一些可自定义的东西.

我想将链接信息存储在MongoDB数据库中,因此我需要能够指示链接如何存储在框架中.虽然我已经将这个问题标记为与语言无关,但这也意味着我必须将选择限制在MongoDB支持的语言(Python,Ruby,Perl,PHP,Java和C++)中的一个框架,这是一个非常宽网.我更喜欢动态语言,但我对任何建议持开放态度.

我已经能够找到Scrapy(看起来整洁)和JSpider(看起来很好,但可能有点太"重型",基于121页用户手册),但我想看看是否有其他好的选择我在那里失踪.

Answer 1

Ste*_*pel 6

我想你已经自己搜索了Stack Overflow,因为在这些标记的web-crawler中有很多非常类似的问题？我没有广泛使用以下任何内容,我没有详细说明,只列出一些我认为值得审查手头的任务:

蟒蛇
- Scrapy:我再次提到它作为一种有前途的方法,特别是因为它基于Twisted,一种现代且备受推崇的网络引擎.
- 机械化:基于WWW-Mechanize,请参阅下面的Perl.
- 类似于Python的问题,关于Mechanize,Scrapy等的更多细节.
Ruby(从未使用过这些)
- SPIDR
- 海葵
Perl的
- WWW-Mechanize:非常成熟的项目,文档齐全.
Java的
- Nutch:非常成熟的项目,文档齐全,专用的可扩展性,基于Apache Lucene,非常成熟,拥有强大的社区; 仍然存在关于高级集成方案的问题,请参阅此问题.
- Heritrix:非常成熟的项目,文档齐全,专用的可扩展性,Internet Archive的主干; 似乎更好地解决了一些高级集成方案,再次看到这个问题.

那么,祝好运的评论;)

归档时间：	16 年，10 月前
查看次数：	1231 次
最近记录：	8 年，7 月前