was*_*ans 20 search-engine web-crawler nutch
我正在尝试建立一个专门的搜索引擎网站,为有限数量的网站编制索引.我想出的解决方案是:
问题是我发现Nutch非常复杂,而且它是一个很大的自定义软件,尽管事实上不存在详细的文档(书籍,最近的教程......等).
现在问题:
谢谢
nat*_*e c 4
Scrapy是一个用于爬取网站的 Python 库。它相当小(与 Nutch 相比),专为有限的站点爬行而设计。它有 Django 类型的 MVC 风格,我发现很容易定制。
归档时间:
14 年,11 月 前
查看次数:
9152 次
最近记录:
7 年,8 月 前