wget：从特定网站递归检索网址

Question

我正在尝试从网站递归检索所有可能的网址（内部页面网址）。

你能帮我解决wget吗？或者有没有更好的选择来实现这一目标？我不想从网站下载任何内容，而只想获取同一个域的 url。

谢谢！

编辑

我尝试在 wget 中执行此操作，稍后再 grep outlog.txt 文件。不确定，这是否是正确的方法。但是，它有效！

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'

Answer 1

你也可以使用像nutch这样的东西，我只用它来抓取网站上的内部链接并将它们索引到solr中，但根据这篇文章，它也可以做外部链接，具体取决于你想对结果做什么不过有点矫枉过正了。