HTTrack 提供了过滤器选项,但我无法弄清楚如何下载某个子文件夹级别并忽略所有其他子文件夹。
例子:
domain.com/
domain.com/pets/
domain.com/pets/elephant
domain.com/zoo/tiger
domain.com/pics/giraffe
domain.com/pics/giraffe/details
Run Code Online (Sandbox Code Playgroud)
我只想下载子文件夹elephant,tiger并giraffe以 HTML 形式下载,包括从那里链接的图像。
HTTrack有那么强大吗?(我使用的是 Windows GUI 版本“WinHTTrack”。)
PS:如果能将其作为程序选项就好了,例如“最小镜像深度”。
我找到了一种方法:
-*
-domain.com/*[path]/*
-domain.com/*[path]
+domain.com/*[path]/*[path]/*
-domain.com/*/specialfolder*
+domain.com/*specialimages*.jpg
-mime:*/* +mime:text/html +mime:image/*
Run Code Online (Sandbox Code Playgroud)
唯一的问题:要获取所有 URL,指定根域还不够,还要指定第一级子文件夹(例如:domain.com/pets、domain.com/zoo、domain.com/pics)。