日本mojibake检测

Question

我想知道是否有一种方法可以通过其字节范围来检测mojibake（无效）字符。（举一个简单的例子，检测有效的ascii字符只是看它们的字节值是否小于128）鉴于旧的自定义字符集，例如JIS，EUC，当然还有UNICODE，有没有办法做到这一点？

眼前的兴趣是在C＃项目中，但是我想找到一种尽可能与语言/平台无关的解决方案，因此我可以在c ++，Java，PHP或任何其他语言中使用。

Arrigato

Answer 1

通过字节范围检测 \xe6\x96\x87\xe5\xad\x97\xe5\x8c\x96\xe3\x81\x91(mojibake) 是非常困难的。

\n\n

如您所知，大多数日语字符由多字节组成。在 Shift-JIS（日本最流行的编码之一）情况下，日语字符的第一个字节范围是 0x81 到 0x9f 和 0xe0 到 0xef，第二个字节有其他范围。此外，可以将 ASCII 字符插入到 Shift-JIS 文本中。它很难。

\n\n

在 Java 中，您可以使用检测无效字符java.nio.charset.CharsetDecoder。

\n