相关疑难解决方法(0)

使用Nutch重新抓取网址仅适用于更新的网站

我用Nutch 2.1抓取了一个URL,然后我想在更新后重新抓取页面.我怎样才能做到这一点?我如何知道页面已更新?

apache lucene solr web-crawler nutch

8
推荐指数
2
解决办法
3957
查看次数

运行nutch crawler时存储的爬网数据在哪里?

我是Nutch的新手.我需要抓取网页(比如几百个网页),阅读已抓取的数据并进行一些分析.

我按照链接https://wiki.apache.org/nutch/NutchTutorial(并集成了Solr,因为我将来可能需要搜索文本)并使用一些URL作为种子运行爬网.

现在,我text/html在本地机器上找不到数据.我在哪里可以找到数据以及以文本格式读取数据的最佳方式是什么?

版本

  • Apache的Nutch的-1.9
  • Solr的-4.10.4

web-crawler nutch

4
推荐指数
1
解决办法
4452
查看次数

标签 统计

nutch ×2

web-crawler ×2

apache ×1

lucene ×1

solr ×1