Jah*_*mic 5 unicode character-encoding
我想知道是否有一种方法可以通过其字节范围来检测mojibake(无效)字符。(举一个简单的例子,检测有效的ascii字符只是看它们的字节值是否小于128)鉴于旧的自定义字符集,例如JIS,EUC,当然还有UNICODE,有没有办法做到这一点?
眼前的兴趣是在C#项目中,但是我想找到一种尽可能与语言/平台无关的解决方案,因此我可以在c ++,Java,PHP或任何其他语言中使用。
Arrigato
小智 1
通过字节范围检测 \xe6\x96\x87\xe5\xad\x97\xe5\x8c\x96\xe3\x81\x91(mojibake) 是非常困难的。
\n\n如您所知,大多数日语字符由多字节组成。在 Shift-JIS(日本最流行的编码之一)情况下,日语字符的第一个字节范围是 0x81 到 0x9f 和 0xe0 到 0xef,第二个字节有其他范围。此外,可以将 ASCII 字符插入到 Shift-JIS 文本中。它很难。
\n\n在 Java 中,您可以使用 检测无效字符java.nio.charset.CharsetDecoder
。
归档时间: |
|
查看次数: |
1140 次 |
最近记录: |