下载网页的所有源文件

3 command-line wget web curl

我想下载作为数据库搜索引擎的网页的源文件。使用 curl 我只能下载主 html 页面。我还想下载链接到网页并在主 html 页面中提到的所有 javascript 文件、css 文件和 php 文件。使用 curl/wget 或其他一些实用程序可以做到这一点吗?

Chr*_*own 7

首先,您应该与网站运营商确认这是对他们服务的可接受使用。之后,您可以执行以下操作:

wget -pk example.com
Run Code Online (Sandbox Code Playgroud)

-p获取查看页面的必要条件(Javascript、CSS 等)。-k将页面上的链接转换为可用于本地查看的链接。

来自man wget

-p, --page-requisites

此选项使 Wget 下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。

[...]

-k, --convert-links

下载完成后,对文档中的链接进行转换,使其适合本地查看。这不仅会影响可见的超链接,还会影响链接到外部内容的文档的任何部分,例如嵌入的图像、样式表的链接、非 HTML 内容的超链接等。