Nutch的另一种网络爬虫

Question

我正在尝试建立一个专门的搜索引擎网站,为有限数量的网站编制索引.我想出的解决方案是:

问题是我发现Nutch非常复杂,而且它是一个很大的自定义软件,尽管事实上不存在详细的文档(书籍,最近的教程......等).

现在问题:

谢谢

Answer 1

Scrapy是一个用于爬取网站的 Python 库。它相当小（与 Nutch 相比），专为有限的站点爬行而设计。它有 Django 类型的 MVC 风格，我发现很容易定制。