我需要通过 HTTP 翻录一个网站。我需要下载图像、HTML、CSS 和 JavaScript,并在文件系统中组织它们。
有谁知道如何做到这一点?
小智 41
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
Run Code Online (Sandbox Code Playgroud)
这在控制台中运行。
这将抓取一个站点,在请求之间等待 3 秒,限制它的下载速度,这样它就不会杀死该站点,并以一种使其看起来只是一个浏览器的方式屏蔽自己,这样该站点就不会切断您的注意力使用反水蛭机制。
请注意-A
指示要下载的文件类型列表的参数。
您还可以使用另一个标签-D domain1.com,domain2.com
来指示您要下载的一系列域,如果它们有另一台服务器或用于托管不同类型文件的任何东西。如果您没有获得文件,则没有安全的方法可以在所有情况下自动执行此操作。
wget
通常预装在 Linux 上,但可以为其他 Unix 系统轻松编译或为 Windows 轻松下载:GNUwin32 WGET
将此用于善而不是恶。