wget 和 curl 将网页保存为乱码(加密?)

JB0*_*2D1 3 wget curl

当我https://www.wired.com/category/security/使用wget或下载时curl,结果是乱码/加密。

是否有可能(如果有的话,正确的方法是什么)从命令行保存该网页(未加密/纯 HTML)?

Yar*_*ron 5

执行摘要:

下载的文件好像被压缩了,你应该解压它。

详细解答

跑步:

wget https://www.wired.com/category/security/
Run Code Online (Sandbox Code Playgroud)

下载index.html文件的结果

file对下载文件执行命令显示:

$ file index.html 
index.html: gzip compressed data, from Unix
Run Code Online (Sandbox Code Playgroud)

重命名文件并解压缩它变成HTML文档

$ mv index.html index.html.gz
$ gunzip index.html.gz 
$ file index.html 
Run Code Online (Sandbox Code Playgroud)

index.html:HTML 文档,UTF-8 Unicode 文本,有很长的行,有大写

额外信息 - 为什么 wget 下载了压缩文件?

如何使用 GZIP 压缩优化您的网站中所述

现代 HTTP 服务器/客户端不是下载大型文本文件,而是使用压缩 HTTP 响应,这减少了传输文件的大小。