相关疑难解决方法(0)

使用 wget，获取 gzipped 版本而不是实际 HTML 的正确命令是什么

因此，当通过获取 gzip 版本下载整个网站时，正确的命令是什么？

我已经测试了这个命令，但我不知道 wget 是否真的得到了 gzip 版本：

wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/

Run Code Online (Sandbox Code Playgroud)

wget

jom*_*ana

2016 09-04

22
推荐指数

1
解决办法

3万
查看次数

Wget 返回二进制文件而不是 html？

我正在使用 wget 下载静态 html 页面。W3C 验证器告诉我该页面以 UTF-8 编码。然而，当我在下载后查看文件时，我得到了一堆二进制废话。我在 Ubuntu 上，我认为默认编码是 UTF-8？这就是我的语言环境文件似乎所说的。为什么会发生这种情况，我该如何纠正？

另外，看起来像Content-Encoding: gzip。也许这会有所不同？

这是一个简单的请求：

wget https://www.example.com/page.html

Run Code Online (Sandbox Code Playgroud)

我也试过这个：

wget https://www.example.com/page.html -q -O - | iconv -f utf-16 -t utf-8 > output.html

Run Code Online (Sandbox Code Playgroud)

哪个返回： iconv: illegal input sequence at position 40

cat'ing 文件返回如下所示的二进制文件：

l???u?`?q"?:)s??d?__??~i??6n)T?$H?#???QJ

Run Code Online (Sandbox Code Playgroud)

结果xxd output.html | head -20：

00000000: 1f8b 0800 0000 0000 0003 bd56 518f db44  ...........VQ..D
00000010: 107e a6bf 62d4 8a1e 48b9 d8be 4268 9303  .~..b...H...Bh..
00000020: 8956 082a 155e 7a02 21dd cbd8 3bb6 97ae  .V.*.^z.!...;... …

Run Code Online (Sandbox Code Playgroud)

character-encoding gzip wget http

ΓΓI*_*ICK

2016 11-07

12
推荐指数

2
解决办法

3710
查看次数