在运行 wget 时,我原以为它会“跟随链接”,就像深度优先一样:当它遇到一个链接时,它就是下一个获取的东西。但它似乎首先以某种方式处理第一页,获取所有链接,然后遍历这些链接。对于它获取的每个页面,可能会有新的/嵌套的链接,但在原始页面完成之前它不会到达这些链接。想询问并看看这是否实际上是如何工作的,所以我知道我正在做的事情是否有效,并且在完成起始页面的链接之前它不会获取这些页面。
从手册:
对于 HTTP URL,Wget 从给定的 URL 中检索并解析 HTML 或 CSS,通过像
href
或 之类的标记或src
使用“url()
”功能符号指定的 CSS URI 值来检索文档所引用的文件。如果新下载的文件也是text/html
,application/xhtml+xml
, 或类型 ,text/css
它将被解析并进一步跟踪。HTTP 和 HTML/CSS 内容的递归检索是广度优先的。这意味着 Wget 首先下载请求的文档,然后是从该文档链接的文档,然后是由它们链接的文档,依此类推。换句话说,Wget 首先下载深度 1 的文档,然后是深度 2 的文档,依此类推,直到指定的最大深度。