仅限Wget Mirror HTML

B.M*_*.W. 17 wget mirror scrape

我有一个小网站,我尝试镜像到我的本地机器只有html文件,没有图像,图像附加文件... pdf,..等.

我之前从未反映过一个网站,并认为在做任何灾难性事件之前提出这个问题是个好主意.

这是我想要运行的命令,并想知道是否应该添加任何其他内容.

wget --mirror <url> 
Run Code Online (Sandbox Code Playgroud)

谢谢!

小智 21

-R-A选项用于拒绝接受特定的文件类型.

还要考虑用于下载整个网站的带宽.您可能还想添加该--random-wait选项.

如果要跳过所有图像和pdf,则命令将类似于:

wget --mirror --random-wait -R gif,jpg,pdf <url>
Run Code Online (Sandbox Code Playgroud)

注意:镜像网站可能违反政策,因此我建议您先检查.

资料来源: