这是一个更普遍的问题,但它对我正在运行的数据挖掘项目有更广泛的影响.我一直在使用wget镜像归档网页进行分析.这是一个大量的数据,我目前的镜像过程已经持续了将近一个星期.这给了我很多时间来观看读数.
wget如何确定下载页面的顺序?我似乎无法辨别其决策制定过程的一致性逻辑(它不按字母顺序,按原始网站创建日期或文件类型进行).当我开始处理数据时,这将非常有助于掌握.
FWIW,这是我正在使用的命令(它需要cookie,而网站的TOS允许以任何方式"访问"我不想冒任何机会) - 其中SITE = URL:
wget -m --cookies=on --keep-session-cookies --load-cookies=cookie3.txt --save-cookies=cookie4.txt --referer=SITE --random-wait --wait=1 --limit-rate=30K --user-agent="Mozilla 4.0" SITE
Run Code Online (Sandbox Code Playgroud)
编辑添加:在对Chown的有用答案的评论中,我稍微改进了我的问题,所以在这里.有更大的网站 - 比如epe.lac-bac.gc.ca/100/205/301/ic/cdc/E/Alphabet.asp - 我发现它最初创建了一个目录结构和一些index.html/default.html页面,然后再回到不同的网站几次(例如,在每次传递时抓取更多的图像和子页面)
\n\n\n\n
\n\n- 递归下载
\nGNU Wget 能够按照链接和目录结构遍历部分 Web(或单个 http\n 或 ftp 服务器)。我们将其称为递归检索或递归。
\n\n使用 http url,Wget 检索并解析给定 url 中的 html 或 css,通过 href 或 src 等标记检索文档引用的文件,或者使用 \xe2\x80\x98url( )\xe2\x80\x99\n 函数符号。如果新下载的文件也是 text/html、application/xhtml+xml 或 text/css 类型,则将对其进行解析并进一步执行。
\n\nhttp 和 html/css 内容的递归检索是广度优先。\n 这意味着 Wget 首先下载请求的文档,然后下载从该文档链接的文档,然后下载由它们链接的文档,依此类推。换句话说,Wget 首先下载深度为 1 的文档,然后下载深度为 2 的文档,依此类推,直到达到指定的最大深度。
\n\n检索可以下降的最大深度由 \xe2\x80\x98-l\xe2\x80\x99 选项指定。默认最大深度为五层。
\n\n当递归检索 ftp url 时,Wget 将从远程服务器上给定的目录树(包括指定深度的子目录)中检索所有数据,并在本地创建其镜像。ftp 检索也受到深度参数的限制。与 http 递归不同,ftp 递归是深度优先执行的。
\n\n默认情况下,Wget 将创建一个本地目录树,与远程服务器上找到的目录树相对应。
\n\n....剪断....
\n\n应谨慎使用递归检索。不要说你没有被警告过。
\n
根据我自己的基本测试,当结构深度为 1 时,它按照页面从上到下的出现顺序排列:
\n\n[ 16:28 root@host /var/www/html ]# cat index.html\n<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">\n<html lang="en-US">\n <head>\n <link rel="stylesheet" type="text/css" href="style.css">\n </head>\n <body>\n <div style="text-align:center;">\n <h2>Mobile Test Page</h2>\n </div>\n <a href="/c.htm">c</a>\n <a href="/a.htm">a</a>\n <a href="/b.htm">b</a>\n </body>\n</html>\n\n\n\n[ 16:28 jon@host ~ ]$ wget -m http://98.164.214.224:8000\n--2011-10-15 16:28:51-- http://98.164.214.224:8000/\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 556 [text/html]\nSaving to: "98.164.214.224:8000/index.html"\n\n100%[====================================================================================================================================================================================================>] 556 --.-K/s in 0s\n\n2011-10-15 16:28:51 (19.7 MB/s) - "98.164.214.224:8000/index.html" saved [556/556]\n\n--2011-10-15 16:28:51-- http://98.164.214.224:8000/style.css\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 221 [text/css]\nSaving to: "98.164.214.224:8000/style.css"\n\n100%[====================================================================================================================================================================================================>] 221 --.-K/s in 0s\n\n2011-10-15 16:28:51 (777 KB/s) - "98.164.214.224:8000/style.css" saved [221/221]\n\n--2011-10-15 16:28:51-- http://98.164.214.224:8000/c.htm\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 0 [text/html]\nSaving to: "98.164.214.224:8000/c.htm"\n\n [ <=> ] 0 --.-K/s in 0s\n\n2011-10-15 16:28:51 (0.00 B/s) - "98.164.214.224:8000/c.htm" saved [0/0]\n\n--2011-10-15 16:28:51-- http://98.164.214.224:8000/a.htm\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 2 [text/html]\nSaving to: "98.164.214.224:8000/a.htm"\n\n100%[====================================================================================================================================================================================================>] 2 --.-K/s in 0s\n\n2011-10-15 16:28:51 (102 KB/s) - "98.164.214.224:8000/a.htm" saved [2/2]\n\n--2011-10-15 16:28:51-- http://98.164.214.224:8000/b.htm\nConnecting to 98.164.214.224:8000... connected.\nHTTP request sent, awaiting response... 200 OK\nLength: 2 [text/html]\nSaving to: "98.164.214.224:8000/b.htm"\n\n100%[====================================================================================================================================================================================================>] 2 --.-K/s in 0s\n\n2011-10-15 16:28:51 (85.8 KB/s) - "98.164.214.224:8000/b.htm" saved [2/2]\n\nFINISHED --2011-10-15 16:28:51--\nDownloaded: 5 files, 781 in 0s (2.15 MB/s)\nRun Code Online (Sandbox Code Playgroud)\n