use*_*ser 11 java encoding character-encoding text-files
我有一个文本文件,它可以是ANSI(带有ISO-8859-2字符集),UTF-8,UCS-2 Big或Little Endian.
有没有办法检测文件的编码以正确读取它?
或者是否可以在不提供编码的情况下读取文件?(它按原样读取文件)
(有几个程序可以检测和转换文本文件的编码/格式.)
Jon*_*Jon 11
是的,有很多方法可以进行字符编码检测,特别是在Java中.看一下基于Mozilla算法的jchardet.还有cpdetector和IBM的一个名为ICU4j的项目.我会看看后者,因为它似乎比其他两个更可靠.它们基于二进制文件的统计分析工作,ICU4j还将提供它检测到的字符编码的置信度,因此您可以在上面的情况下使用它.它工作得很好.
| 归档时间: |
|
| 查看次数: |
11141 次 |
| 最近记录: |