从nutch获取链接

Question

我正在使用nutch 1.3来抓取一个网站.我想获取一个已抓取的网址列表,以及来自网页的网址.

我获取使用readdb命令爬网的URL列表.

bin/nutch readdb crawl/crawldb -dump file

有没有办法通过阅读crawldb或linkdb找出页面上的网址？

在org.apache.nutch.parse.html.HtmlParser我看到的outlinks数组中,我想知道是否有一种从命令行访问它的快捷方法.

Answer 1

从命令行,您可以通过使用带有-dump或-get选项的readseg来查看外链.例如,

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump