小编use*_*485的帖子

使用 wget 下载时忽略“其他”域?

我想抓取 www.website.com/XYZ 下的链接,只下载 www.website.com/ABC 下的链接。

我正在使用以下 wget 命令来获取我想要的文件:

wget  -I ABC -r -e robots=off --wait 0.25  http://www.website.com/XYZ
Run Code Online (Sandbox Code Playgroud)

当我使用 wget 1.13.4 时,这非常有效。但问题是我必须在具有 wget 1.11 的服务器上使用此命令,当我使用相同的命令时,它最终会下载其他域,例如:

www.website.de 
www.website.it 
...
Run Code Online (Sandbox Code Playgroud)

我怎样才能避免这个问题?我尝试使用

--exclude domains=www.website.de,www.website.it
Run Code Online (Sandbox Code Playgroud)

但是它一直在下载这些域。

另请注意,我无法使用,--no-parent因为我想要的文件在上层(我希望通过抓取 website.com/XYZ 下的链接来获取 website.com/ABC 下的文件)。

任何提示?

command-line wget

15
推荐指数
2
解决办法
2万
查看次数

标签 统计

command-line ×1

wget ×1