Wget跨度主机仅用于images/stylesheets/javascript但不包含链接

Question

Wget跨度主机仅用于images/stylesheets/javascript但不包含链接

Wget具有-H"span host"选项

Span to any host—‘-H’
The ‘-H’ option turns on host spanning, thus allowing Wget's recursive run to visit any host referenced by a link. Unless sufficient recursion-limiting criteria are applied depth, these foreign hosts will typically link to yet more hosts, and so on until Wget ends up sucking up much more data than you have intended.

Run Code Online (Sandbox Code Playgroud)

我想做一个递归下载(例如,第3级),我想获得图像,样式表,javascripts等(即,正确显示页面所需的文件),即使它们在我的主机之外.不过,我并不想跟着一个链接到另一个HTML页面(因为那可以去到另一个HTML页面,依此类推,那么数字可能会爆炸.)

有可能以某种方式这样做吗？似乎-H选项控制跨越到其他主机的图像/样式表/ javascript案例和链接案例,而wget不允许我将两者分开.

Answer 1

lig*_*h05 17

下载页面中的所有依赖项

第一步是下载特定页面的所有资源.如果你查看wget的手册页,你会发现:

...下载单个页面及其所有必需品(即使它们存在于不同的网站上),并确保批次在本地正确显示,此作者除了-p之外还喜欢使用一些选项:

wget -E -H -k -K -p http://<site>/<document>

Run Code Online (Sandbox Code Playgroud)

获得多个页面

不幸的是,这只适用于每页.你可以打开递归-r,但后来你遇到了跟随外部网站和爆炸的问题.如果您知道可用于资源的域的完整列表,则可以将其限制为仅使用的域-D,但这可能很难.我建议使用-np(没有父目录)的组合并-l限制递归的深度.您可能会开始获得其他网站,但至少会受到限制.如果您开始遇到问题,可以使用--exclude-domains限制已知问题的原因.最后,我认为这是最好的:

wget -E -H -k -K -p -np -l 1 http://<site>/level

Run Code Online (Sandbox Code Playgroud)

限制域名

为了帮助确定需要包含/排除哪些域,您可以使用此答案来grep一两页(您希望grep该.orig文件)并列出其中的链接.从那里你可以建立一个应该包含的域名列表,并使用-D参数限制它.或者您至少可以找到一些您不想包含的域名并限制它们使用--exclude-domains.最后,您可以使用该-Q参数来限制下载的数据量,以防止填满磁盘.

论证的描述

-E
- 如果下载了application/xhtml + xml或text/html类型的文件且URL未以regexp结尾,则\.[Hh][Tt][Mm][Ll]?,此选项将使后缀.html附加到本地文件名.
-H
- 在执行递归检索时启用跨主机的跨越.
-k
- 下载完成后,转换文档中的链接,使其适合本地查看.这不仅会影响可见的超链接,还会影响链接到外部内容的文档的任何部分,例如嵌入的图像,指向样式表的链接,指向非HTML内容的超链接等.
-K
- 转换文件时,请使用.orig后缀备份原始版本.
-p
- 此选项使Wget下载正确显示给定HTML页面所需的所有文件.这包括内联图像,声音和引用样式表等内容.
-np
- 在递归检索时,不要提升到父目录.这是一个有用的选项,因为它保证只下载某个层次结构下面的文件.
-l
- 指定递归最大深度级别深度.
-D
- 设置要遵循的域.domain-list是以逗号分隔的域列表.请注意,它不会打开-H.
--exclude-domains
- 指定不遵循的域.
-Q
- 指定自动检索的下载配额.该值可以以字节(默认),千字节(带有k后缀)或兆字节(带有m后缀)指定.

@SJU 为什么 URI 是 `/sf/ask/1174642101/`，而不是 `https://stackoverflow .com/questions/16780601/wget-span-host-only-for-images-stylesheets-javascript-but-not-links.html`？ (2认同)

归档时间：	13 年前
查看次数：	5272 次
最近记录：	9 年，9 月前