我想下载作为数据库搜索引擎的网页的源文件。使用 curl 我只能下载主 html 页面。我还想下载链接到网页并在主 html 页面中提到的所有 javascript 文件、css 文件和 php 文件。使用 curl/wget 或其他一些实用程序可以做到这一点吗?
首先,您应该与网站运营商确认这是对他们服务的可接受使用。之后,您可以执行以下操作:
wget -pk example.com
Run Code Online (Sandbox Code Playgroud)
-p
获取查看页面的必要条件(Javascript、CSS 等)。-k
将页面上的链接转换为可用于本地查看的链接。
来自man wget
:
-p, --page-requisites
此选项使 Wget 下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。
[...]
-k, --convert-links
下载完成后,对文档中的链接进行转换,使其适合本地查看。这不仅会影响可见的超链接,还会影响链接到外部内容的文档的任何部分,例如嵌入的图像、样式表的链接、非 HTML 内容的超链接等。