使用 wget 更改文本编码下载文件

Ast*_*tro 5 wget character-encoding

我想要获取的网页具有 windows-1251 字符集编码。有没有一种方法不仅可以简单地下载此页面,还可以自动..嗯..将里面的文本转换为uft-8?

我尝试向 wget 添加其他参数,例如

--header='Accept-Charset: utf-8'
Run Code Online (Sandbox Code Playgroud)

但没有运气。

NoB*_*ugs 5

您可以使用

iconv -f ISO-8859-1 -t UTF-8 ./index.html > ./utf.html
Run Code Online (Sandbox Code Playgroud)

来转换编码。请参阅https://wiki.archlinux.org/index.php/Convert_a_text_file%27s_encoding

  • 也许不是直接的,但是 `wget -O ./tmp.htm http://www.popmech.ru/article/12858-kosmicheskiy-grom/ && iconv -f ISO-8859-1 -t UTF-8 ./ 怎么样? tmp.htm > ./output.htm` (2认同)