通过 HTTP 翻录网站以下载图像、HTML 和 CSS

dam*_*mon 23 website download

我需要通过 HTTP 翻录一个网站。我需要下载图像、HTML、CSS 和 JavaScript,并在文件系统中组织它们。

有谁知道如何做到这一点?

小智 41

wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
Run Code Online (Sandbox Code Playgroud)

这在控制台中运行。

这将抓取一个站点,在请求之间等待 3 秒,限制它的下载速度,这样它就不会杀死该站点,并以一种使其看起来只是一个浏览器的方式屏蔽自己,这样该站点就不会切断您的注意力使用反水蛭机制。

请注意-A指示要下载的文件类型列表的参数。

您还可以使用另一个标签-D domain1.com,domain2.com来指示您要下载的一系列域,如果它们有另一台服务器或用于托管不同类型文件的任何东西。如果您没有获得文件,则没有安全的方法可以在所有情况下自动执行此操作。

wget通常预装在 Linux 上,但可以为其他 Unix 系统轻松编译或为 Windows 轻松下载:GNUwin32 WGET

将此用于善而不是恶。


小智 16

好的,免费的解决方案:HTTrack

HTTrack 是一款免费(GPL、自由/免费软件)且易于使用的离线浏览器实用程序。

它允许您将万维网站点从 Internet 下载到本地目录,递归构建所有目录,从服务器获取 HTML、图像和其他文件到您的计算机。HTTrack 安排原始站点的相关链接结构。只需在浏览器中打开“镜像”网站的一个页面,您就可以从一个链接到另一个链接浏览该网站,就像您在网上查看一样。HTTrack 还可以更新现有的镜像站点,并恢复中断的下载。HTTrack 是完全可配置的,并具有集成的帮助系统。


GWL*_*osa 7

在 Linux 系统上,'wget' 几乎可以做到这一点。

正如其他几个答案所提到的,它也被移植到了其他几个平台。