WGet下载顺序的逻辑

pro*_*ian 5 bash wget

这是一个更普遍的问题,但它对我正在运行的数据挖掘项目有更广泛的影响.我一直在使用wget镜像归档网页进行分析.这是一个大量的数据,我目前的镜像过程已经持续了将近一个星期.这给了我很多时间来观看读数.

wget如何确定下载页面的顺序?我似乎无法辨别其决策制定过程的一致性逻辑(它不按字母顺序,按原始网站创建日期或文件类型进行).当我开始处理数据时,这将非常有助于掌握.

FWIW,这是我正在使用的命令(它需要cookie,而网站的TOS允许以任何方式"访问"我不想冒任何机会) - 其中SITE = URL:

wget -m --cookies=on --keep-session-cookies --load-cookies=cookie3.txt --save-cookies=cookie4.txt --referer=SITE --random-wait --wait=1 --limit-rate=30K --user-agent="Mozilla 4.0" SITE
Run Code Online (Sandbox Code Playgroud)

编辑添加:在对Chown的有用答案的评论中,我稍微改进了我的问题,所以在这里.有更大的网站 - 比如epe.lac-bac.gc.ca/100/205/301/ic/cdc/E/Alphabet.asp - 我发现它最初创建了一个目录结构和一些index.html/default.html页面,然后再回到不同的网站几次(例如,在每次传递时抓取更多的图像和子页面)

cho*_*own 4

gnu.org wget 递归下载

\n\n
\n
    \n
  • 递归下载
  • \n
\n\n

GNU Wget 能够按照链接和目录结构遍历部分 Web(或单个 http\n 或 ftp 服务器)。我们将其称为递归检索或递归。

\n\n

使用 http url,Wget 检索并解析给定 url 中的 html 或 css,通过 href 或 src 等标记检索文档引用的文件,或者使用 \xe2\x80\x98url( )\xe2\x80\x99\n 函数符号。如果新下载的文件也是 text/html、application/xhtml+xml 或 text/css 类型,则将对其进行解析并进一步执行。

\n\n

http 和 html/css 内容的递归检索是广度优先。\n 这意味着 Wget 首先下载请求的文档,然后下载从该文档链接的文档,然后下载由它们链接的文档,依此类推。换句话说,Wget 首先下载深度为 1 的文档,然后下载深度为 2 的文档,依此类推,直到达到指定的最大深度。

\n\n

检索可以下降的最大深度由 \xe2\x80\x98-l\xe2\x80\x99 选项指定。默认最大深度为五层。

\n\n

当递归检索 ftp url 时,Wget 将从远程服务器上给定的目录树(包括指定深度的子目录)中检索所有数据,并在本地创建其镜像。ftp 检索也受到深度参数的限制。与 http 递归不同,ftp 递归是深度优先执行的。

\n\n

默认情况下,Wget 将创建一个本地目录树,与远程服务器上找到的目录树相对应。

\n\n

....剪断....

\n\n

应谨慎使用递归检索。不要说你没有被警告过。

\n
\n\n
\n\n

根据我自己的基本测试,当结构深度为 1 时,它按照页面从上到下的出现顺序排列:

\n\n
[ 16:28 root@host /var/www/html ]# cat index.html\n<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">\n<html lang="en-US">\n    <head>\n        <link rel="stylesheet" type="text/css" href="style.css">\n    </head>\n    <body>\n        <div style="text-align:center;">\n            <h2>Mobile Test Page</h2>\n        </div>\n        <a href="/c.htm">c</a>\n        <a href="/a.htm">a</a>\n        <a href="/b.htm">b</a>\n    </body>\n</html>\n\n\n\n[ 16:28 jon@host ~ ]$ wget -m http://98.164.214.224:8000\n--2011-10-15 16:28:51--  http://98.164.214.224:8000/\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 556 [text/html]\nSaving to: "98.164.214.224:8000/index.html"\n\n100%[====================================================================================================================================================================================================>] 556         --.-K/s   in 0s\n\n2011-10-15 16:28:51 (19.7 MB/s) - "98.164.214.224:8000/index.html" saved [556/556]\n\n--2011-10-15 16:28:51--  http://98.164.214.224:8000/style.css\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 221 [text/css]\nSaving to: "98.164.214.224:8000/style.css"\n\n100%[====================================================================================================================================================================================================>] 221         --.-K/s   in 0s\n\n2011-10-15 16:28:51 (777 KB/s) - "98.164.214.224:8000/style.css" saved [221/221]\n\n--2011-10-15 16:28:51--  http://98.164.214.224:8000/c.htm\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 0 [text/html]\nSaving to: "98.164.214.224:8000/c.htm"\n\n    [ <=>                                                                                                                                                                                                 ] 0           --.-K/s   in 0s\n\n2011-10-15 16:28:51 (0.00 B/s) - "98.164.214.224:8000/c.htm" saved [0/0]\n\n--2011-10-15 16:28:51--  http://98.164.214.224:8000/a.htm\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 2 [text/html]\nSaving to: "98.164.214.224:8000/a.htm"\n\n100%[====================================================================================================================================================================================================>] 2           --.-K/s   in 0s\n\n2011-10-15 16:28:51 (102 KB/s) - "98.164.214.224:8000/a.htm" saved [2/2]\n\n--2011-10-15 16:28:51--  http://98.164.214.224:8000/b.htm\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 2 [text/html]\nSaving to: "98.164.214.224:8000/b.htm"\n\n100%[====================================================================================================================================================================================================>] 2           --.-K/s   in 0s\n\n2011-10-15 16:28:51 (85.8 KB/s) - "98.164.214.224:8000/b.htm" saved [2/2]\n\nFINISHED --2011-10-15 16:28:51--\nDownloaded: 5 files, 781 in 0s (2.15 MB/s)\n
Run Code Online (Sandbox Code Playgroud)\n