从nutch获取链接

sur*_*ajz 10 web-crawler nutch

我正在使用nutch 1.3来抓取一个网站.我想获取一个已抓取的网址列表,以及来自网页的网址.

我获取使用readdb命令爬网的URL列表.

bin/nutch readdb crawl/crawldb -dump file
Run Code Online (Sandbox Code Playgroud)

有没有办法通过阅读crawldb或linkdb找出页面上的网址?

org.apache.nutch.parse.html.HtmlParser我看到的outlinks数组中,我想知道是否有一种从命令行访问它的快捷方法.

sur*_*ajz 8

从命令行,您可以通过使用带有-dump或-get选项的readseg来查看外.例如,

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump
Run Code Online (Sandbox Code Playgroud)