小编abh*_*kar的帖子

wget:从特定网站递归检索网址

我正在尝试从网站递归检索所有可能的网址(内部页面网址)。

你能帮我解决wget吗?或者有没有更好的选择来实现这一目标?我不想从网站下载任何内容,而只想获取同一个域的 url。

谢谢!

编辑

我尝试在 wget 中执行此操作,稍后再 grep outlog.txt 文件。不确定,这是否是正确的方法。但是,它有效!

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'
Run Code Online (Sandbox Code Playgroud)

wget web-crawler

7
推荐指数
1
解决办法
6979
查看次数

标签 统计

web-crawler ×1

wget ×1