我怎样才能让 wget 只下载页面而不是 css 图像等?

use*_*446 11 linux wget

我想使用 wget 下载整个网站,但我不希望 wget 下载图像、视频等。

我试过

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6?
Run Code Online (Sandbox Code Playgroud)

但是当我这样做时,它不会下载 .php 文件,而是下载静态的 .html 文件。

wget有解决这个问题的方法吗?

Jam*_*ley 6

您已经明确告诉 wget 只接受具有.html后缀的文件。

假设 php 页面有.php,你可以这样做:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6?
Run Code Online (Sandbox Code Playgroud)

请注意,这将下载呈现的 html,而不是 php 的源代码。如果页面足够动态,您可能无法获得预期的渲染结果。

但是,我建议使用httrack等其他工具可能会做得更好 - 这取决于您需要做什么。


Ali*_*orm 3

-A 需要一个列表,因此 -A.html,.php 应该符合要求。您还应该查看 -R (它也需要拒绝列表)。