小编Arj_ddy的帖子

如何加快Nutch的爬行速度

我正在尝试开发一个应用程序,在其中我将为Nutch中的urls文件提供一组受限制的URL.我能够抓取这些网址,并通过从细分中读取数据来获取它们的内容.

我已经通过给出深度1来抓取,因为我不关心网页中的外链或链接.我只需要url文件中该网页的内容.

但执行此爬网需要时间.所以,建议我一种减少爬行时间和提高爬行速度的方法.我也不需要索引,因为我不关心搜索部分.

有没有人有关于如何加快爬行的建议？

web-crawler nutch

3
推荐指数

3
解决办法

5711
查看次数

标签统计

web-crawler ×1