wget递归下载,但我不想关注所有链接

Ama*_*rus 11 linux mirror wget mirror-site

我正在尝试使用 wget 镜像网站,但我不想下载大量文件,因此我使用 wget 的--reject选项不保存所有文件。但是,如果 wget 与我的拒绝选项匹配,wget 仍会下载所有文件,然后删除该文件。

如果某些链接与某些 shell 通配符匹配,是否有某种方法可以告诉 wget 不要遵循某些链接?如果 wget 不能做到这一点,是否还有其他一些常见的 linux 命令可以做到这一点?

luk*_*yca 10

您也可以尝试HTTrack,它具有 IMO 更灵活和直观的包含/排除逻辑。像这样的东西...

httrack "https://example.com" -O ExampleMirrorDirectory \
"-*" \
"+https://example.com/images/*" \
"-*.swf"
Run Code Online (Sandbox Code Playgroud)

规则将按顺序应用,并将覆盖以前的规则...

  1. 排除一切
  2. 但包括https://example.com/images/ *
  3. 但排除任何以 swf 结尾的内容


Ama*_*rus 6

看起来这在 wget 中是不可能的