B.M*_*.W. 17 wget mirror scrape
我有一个小网站,我尝试镜像到我的本地机器只有html文件,没有图像,图像附加文件... pdf,..等.
我之前从未反映过一个网站,并认为在做任何灾难性事件之前提出这个问题是个好主意.
这是我想要运行的命令,并想知道是否应该添加任何其他内容.
wget --mirror <url>
Run Code Online (Sandbox Code Playgroud)
谢谢!
小智 21
在-R和-A选项用于拒绝或接受特定的文件类型.
还要考虑用于下载整个网站的带宽.您可能还想添加该--random-wait选项.
如果要跳过所有图像和pdf,则命令将类似于:
wget --mirror --random-wait -R gif,jpg,pdf <url>
Run Code Online (Sandbox Code Playgroud)
注意:镜像网站可能违反政策,因此我建议您先检查.
资料来源: