使用递归wget时如何获取未压缩的内容？

Question

我正在通过 wget recursive下载许多包含所有静态内容（js、css、imgs ...）的单个页面。它显示，压缩（gzip）的服务内容由 wget 以压缩形式存储。但我想要未压缩的形式。很难想象编写另一个脚本来递归遍历目录并尝试解压缩可能的内容。那么有没有什么办法可以解压呢？

指令：

wget -E -H -k -K -p https://some.example

甚至 --header='Accept-Encoding: ' （告诉服务器不要使用 gzip）也没有帮助。

谢谢你的建议:)

Answer 1

使用 httrack 代替 wget
设置解压代理。带有一些第三方插件的Squid应该能够做到这一点。我对 Java 更熟悉，所以我使用了 LittleProxy，覆盖了 getMaximumResponseBufferSizeInBytes() 方法，仅此而已。我在这里写了后来的内容。

编辑：Wget 1.19.2 介绍Add gzip Content-Encoding decompression（并且它有效）