sur*_*ajz 10 web-crawler nutch
我正在使用nutch 1.3来抓取一个网站.我想获取一个已抓取的网址列表,以及来自网页的网址.
我获取使用readdb命令爬网的URL列表.
bin/nutch readdb crawl/crawldb -dump file
Run Code Online (Sandbox Code Playgroud)
有没有办法通过阅读crawldb或linkdb找出页面上的网址?
在org.apache.nutch.parse.html.HtmlParser我看到的outlinks数组中,我想知道是否有一种从命令行访问它的快捷方法.
从命令行,您可以通过使用带有-dump或-get选项的readseg来查看外链.例如,
bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext
less outputdir2/dump
Run Code Online (Sandbox Code Playgroud)