使用递归wget时如何获取未压缩的内容?

use*_*773 5 linux compression wget command-line

我正在通过 wget recursive下载许多包含所有静态内容(js、css、imgs ...)的单个页面。它显示,压缩(gzip)的服务内容由 wget 以压缩形式存储。但我想要未压缩的形式。很难想象编写另一个脚本来递归遍历目录并尝试解压缩可能的内容。那么有没有什么办法可以解压呢?

指令:

wget -E -H -k -K -p https://some.example

甚至 --header='Accept-Encoding: ' (告诉服务器不要使用 gzip)也没有帮助。

谢谢你的建议:)

mon*_*too 0

  1. 使用 httrack 代替 wget
  2. 设置解压代理。带有一些第三方插件的Squid应该能够做到这一点。我对 Java 更熟悉,所以我使用了 LittleProxy,覆盖了 getMaximumResponseBufferSizeInBytes() 方法,仅此而已。我在这里写了后来的内容。

编辑:Wget 1.19.2 介绍Add gzip Content-Encoding decompression(并且它有效)