相关疑难解决方法(0)

使用 wget,获取 gzipped 版本而不是实际 HTML 的正确命令是什么

我偶然发现了这个谈论这个的网站

因此,当通过获取 gzip 版本下载整个网站时,正确的命令是什么?

我已经测试了这个命令,但我不知道 wget 是否真的得到了 gzip 版本:

wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/
Run Code Online (Sandbox Code Playgroud)

wget

22
推荐指数
1
解决办法
3万
查看次数

Wget 返回二进制文件而不是 html?

我正在使用 wget 下载静态 html 页面。W3C 验证器告诉我该页面以 UTF-8 编码。然而,当我在下载后查看文件时,我得到了一堆二进制废话。我在 Ubuntu 上,我认为默认编码是 UTF-8?这就是我的语言环境文件似乎所说的。为什么会发生这种情况,我该如何纠正?

另外,看起来像Content-Encoding: gzip。也许这会有所不同?

这是一个简单的请求:

wget https://www.example.com/page.html
Run Code Online (Sandbox Code Playgroud)

我也试过这个:

wget https://www.example.com/page.html -q -O - | iconv -f utf-16 -t utf-8 > output.html
Run Code Online (Sandbox Code Playgroud)

哪个返回: iconv: illegal input sequence at position 40

cat'ing 文件返回如下所示的二进制文件:

l???u?`?q"?:)s??d?__??~i??6n)T?$H?#???QJ
Run Code Online (Sandbox Code Playgroud)

结果xxd output.html | head -20

00000000: 1f8b 0800 0000 0000 0003 bd56 518f db44  ...........VQ..D
00000010: 107e a6bf 62d4 8a1e 48b9 d8be 4268 9303  .~..b...H...Bh..
00000020: 8956 082a 155e 7a02 21dd cbd8 3bb6 97ae  .V.*.^z.!...;... …
Run Code Online (Sandbox Code Playgroud)

character-encoding gzip wget http

12
推荐指数
2
解决办法
3710
查看次数

标签 统计

wget ×2

character-encoding ×1

gzip ×1

http ×1