Nutch的另一种网络爬虫

was*_*ans 20 search-engine web-crawler nutch

我正在尝试建立一个专门的搜索引擎网站,为有限数量的网站编制索引.我想出的解决方案是:

  • 使用Nutch作为网络爬虫,
  • 使用Solr作为搜索引擎,
  • 前端和站点逻辑用Wicket编码.

问题是我发现Nutch非常复杂,而且它是一个很大的自定义软件,尽管事实上不存在详细的文档(书籍,最近的教程......等).

现在问题:

  1. 关于网站漏洞的任何建设性批评?
  2. 是否有一个很好但简单的替代Nutch(作为网站的爬行部分)?

谢谢

nat*_*e c 4

Scrapy是一个用于爬取网站的 Python 库。它相当小(与 Nutch 相比),专为有限的站点爬行而设计。它有 Django 类型的 MVC 风格,我发现很容易定制。