通过 HTTP 翻录网站以下载图像、HTML 和 CSS

Question

通过 HTTP 翻录网站以下载图像、HTML 和 CSS

我需要通过 HTTP 翻录一个网站。我需要下载图像、HTML、CSS 和 JavaScript，并在文件系统中组织它们。

有谁知道如何做到这一点？

Answer 1

wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

Run Code Online (Sandbox Code Playgroud)

这在控制台中运行。

这将抓取一个站点，在请求之间等待 3 秒，限制它的下载速度，这样它就不会杀死该站点，并以一种使其看起来只是一个浏览器的方式屏蔽自己，这样该站点就不会切断您的注意力使用反水蛭机制。

请注意-A指示要下载的文件类型列表的参数。

您还可以使用另一个标签-D domain1.com,domain2.com来指示您要下载的一系列域，如果它们有另一台服务器或用于托管不同类型文件的任何东西。如果您没有获得文件，则没有安全的方法可以在所有情况下自动执行此操作。

wget通常预装在 Linux 上，但可以为其他 Unix 系统轻松编译或为 Windows 轻松下载：GNUwin32 WGET

将此用于善而不是恶。

Answer 2

小智 16

好的，免费的解决方案：HTTrack

HTTrack 是一款免费（GPL、自由/免费软件）且易于使用的离线浏览器实用程序。

它允许您将万维网站点从 Internet 下载到本地目录，递归构建所有目录，从服务器获取 HTML、图像和其他文件到您的计算机。HTTrack 安排原始站点的相关链接结构。只需在浏览器中打开“镜像”网站的一个页面，您就可以从一个链接到另一个链接浏览该网站，就像您在网上查看一样。HTTrack 还可以更新现有的镜像站点，并恢复中断的下载。HTTrack 是完全可配置的，并具有集成的帮助系统。

Answer 3

GWL*_*osa 7

在 Linux 系统上，'wget' 几乎可以做到这一点。

正如其他几个答案所提到的，它也被移植到了其他几个平台。

归档时间：	16 年，9 月前
查看次数：	32230 次
最近记录：	5 年，10 月前