因此,当通过获取 gzip 版本下载整个网站时,正确的命令是什么?
我已经测试了这个命令,但我不知道 wget 是否真的得到了 gzip 版本:
wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/
Run Code Online (Sandbox Code Playgroud) 我正在使用 wget 下载静态 html 页面。W3C 验证器告诉我该页面以 UTF-8 编码。然而,当我在下载后查看文件时,我得到了一堆二进制废话。我在 Ubuntu 上,我认为默认编码是 UTF-8?这就是我的语言环境文件似乎所说的。为什么会发生这种情况,我该如何纠正?
另外,看起来像Content-Encoding: gzip
。也许这会有所不同?
这是一个简单的请求:
wget https://www.example.com/page.html
Run Code Online (Sandbox Code Playgroud)
我也试过这个:
wget https://www.example.com/page.html -q -O - | iconv -f utf-16 -t utf-8 > output.html
Run Code Online (Sandbox Code Playgroud)
哪个返回: iconv: illegal input sequence at position 40
cat'ing 文件返回如下所示的二进制文件:
l???u?`?q"?:)s??d?__??~i??6n)T?$H?#???QJ
Run Code Online (Sandbox Code Playgroud)
结果xxd output.html | head -20
:
00000000: 1f8b 0800 0000 0000 0003 bd56 518f db44 ...........VQ..D
00000010: 107e a6bf 62d4 8a1e 48b9 d8be 4268 9303 .~..b...H...Bh..
00000020: 8956 082a 155e 7a02 21dd cbd8 3bb6 97ae .V.*.^z.!...;... …
Run Code Online (Sandbox Code Playgroud)