如何恢复wget镜像网站?

Abd*_*him 6 cmd wget web-crawler web-scraping

我使用wget下载整个网站。
我使用了以下命令(在Windows 7中):

wget ^
 --recursive ^
 -A "*thread*, *label*" ^
 --no-clobber ^
 --page-requisites ^
 --html-extension ^
 --domains example.com ^
 --random-wait ^
 --no-parent ^
 --background ^
 --header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" ^
     http://example.com/
Run Code Online (Sandbox Code Playgroud)

2天后,我的小弟弟重新启动了PC,
因此我尝试恢复已停止的进程
,并在命令中添加了以下内容

--continue ^
Run Code Online (Sandbox Code Playgroud)

所以代码看起来像

wget ^
     --recursive ^
     -A "*thread*, *label*" ^
     --no-clobber ^
     --page-requisites ^
     --html-extension ^
     --domains example.com ^
     --random-wait ^
     --no-parent ^
     --background ^
     --continue ^
     --header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" ^
         http://example.com/
Run Code Online (Sandbox Code Playgroud)

不幸的是,它开始了一项新工作,它再次下载了相同的文件,并写入了一个名为

wget-log.1
Run Code Online (Sandbox Code Playgroud)

无论如何,有没有要使用wget恢复镜像站点,还是我要重新开始整个事情?

jac*_*els 8

尝试-nc选项。它会再次检查所有内容,但不会下载。

我正在使用此代码下载一个网站: wget -r -t1 domain.com -o log

我已经停止了该过程,我想恢复它,所以我更改了代码: wget -nc -r -t1 domain.com -o log

在日志中,是这样的: File .... already there; not retrieving. etc.

我在此之前检查过日志,似乎经过这种检查大约5分钟后,它开始下载新文件。

我正在使用wget的手册:http : //www.linux.net.pl/~wkotwica/doc/wget/wget_8.html

  • 但它只检查文件是否存在。它不检查文件是否完整。 (3认同)