相关疑难解决方法(0)

使用Nutch重新抓取网址仅适用于更新的网站

我用Nutch 2.1抓取了一个URL,然后我想在更新后重新抓取页面.我怎样才能做到这一点？我如何知道页面已更新？

apache lucene solr web-crawler nutch

8
推荐指数

2
解决办法

3957
查看次数

运行nutch crawler时存储的爬网数据在哪里？

我是Nutch的新手.我需要抓取网页(比如几百个网页),阅读已抓取的数据并进行一些分析.

我按照链接https://wiki.apache.org/nutch/NutchTutorial(并集成了Solr,因为我将来可能需要搜索文本)并使用一些URL作为种子运行爬网.

现在,我text/html在本地机器上找不到数据.我在哪里可以找到数据以及以文本格式读取数据的最佳方式是什么？

版本

Apache的Nutch的-1.9
Solr的-4.10.4

web-crawler nutch

4
推荐指数

1
解决办法

4452
查看次数

标签统计

web-crawler ×2

solr ×1