bts*_*umy 6 unicode utf-8 character-encoding file-encodings mac-roman
我收到了一些使用Mac OS Roman文件编码的HTML文件.这些文件有法语文本,但在编辑器中,许多变音字符看起来很奇怪(即非法语)
Si cette option est sÈlectionnÈe, <removed> tentera de communiquer avec votre tÈlescope seulement ‡ líaide díun ...
Run Code Online (Sandbox Code Playgroud)
具有重音的大写字母E在浏览器中正确显示为é,与其他奇怪字符一样.
我还有一些UTF-8法语文件在编辑器中看起来很正常(é看起来像é).我想做的是将所有Mac Roman文件转换为UTF-8以便于维护.
只需在编辑器中更改文件编码就不会这样做.奇怪的人物仍然很奇怪.
如果没有制作转换字典并对所有文件进行查找/替换,有没有办法做到这一点?
如果在指定编码时编辑器未正确显示,则表示编码错误.你需要确定你真正拥有的编码.
您似乎有一个值为0xE9的字节,您需要一个Unicode LATIN SMALL LETTER E WITH ACUTE字符.MacRoman 0xE9字节是一个LATIN CAPITAL LETTER E WITH GRAVE字符,这是您的编辑器显示的字符,因为您说它是MacRoman.但事实并非如此.
但是,Unicode代码点U + 00E9确实如此LATIN SMALL LETTER E WITH ACUTE.
因此,你不是 MacRoman,但几乎可以肯定是ISO-8859-1或ISO-8859-15.
所以使用类似的东西
$ iconv -f ISO-8859-1 -t UTF-8 < input.latin1 > output.utf8
Run Code Online (Sandbox Code Playgroud)
做转换.
要实际回答" 将Mac罗马字符转换为等效的UTF-8 "的问题
将文件的编码从Mac OS Roman转换为UTF-8:
$ iconv -f macintosh -t UTF-8 < INPUT_FILE_PATH > OUTPUT_FILE_PATH
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5464 次 |
| 最近记录: |