当我https://www.wired.com/category/security/
使用wget
或下载时curl
,结果是乱码/加密。
是否有可能(如果有的话,正确的方法是什么)从命令行保存该网页(未加密/纯 HTML)?
执行摘要:
下载的文件好像被压缩了,你应该解压它。
详细解答
跑步:
wget https://www.wired.com/category/security/
Run Code Online (Sandbox Code Playgroud)
下载index.html
文件的结果
file
对下载文件执行命令显示:
$ file index.html
index.html: gzip compressed data, from Unix
Run Code Online (Sandbox Code Playgroud)
重命名文件并解压缩它变成HTML文档
$ mv index.html index.html.gz
$ gunzip index.html.gz
$ file index.html
Run Code Online (Sandbox Code Playgroud)
index.html:HTML 文档,UTF-8 Unicode 文本,有很长的行,有大写
额外信息 - 为什么 wget 下载了压缩文件?
现代 HTTP 服务器/客户端不是下载大型文本文件,而是使用压缩 HTTP 响应,这减少了传输文件的大小。
归档时间: |
|
查看次数: |
1984 次 |
最近记录: |