下载网页的所有源文件

Question

下载网页的所有源文件

我想下载作为数据库搜索引擎的网页的源文件。使用 curl 我只能下载主 html 页面。我还想下载链接到网页并在主 html 页面中提到的所有 javascript 文件、css 文件和 php 文件。使用 curl/wget 或其他一些实用程序可以做到这一点吗？

Answer 1

Chr*_*own 7

首先，您应该与网站运营商确认这是对他们服务的可接受使用。之后，您可以执行以下操作：

wget -pk example.com

Run Code Online (Sandbox Code Playgroud)

-p获取查看页面的必要条件（Javascript、CSS 等）。-k将页面上的链接转换为可用于本地查看的链接。

来自man wget：

-p, --page-requisites

此选项使 Wget 下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。

[...]

-k, --convert-links

下载完成后，对文档中的链接进行转换，使其适合本地查看。这不仅会影响可见的超链接，还会影响链接到外部内容的文档的任何部分，例如嵌入的图像、样式表的链接、非 HTML 内容的超链接等。

归档时间：	11 年，3 月前
查看次数：	8697 次
最近记录：	11 年，3 月前