如何生成非UTF-8字符集

for (int i=0;i<255;i++) {
    System.out.println( 
        i + " " + 
        (byte)i + " " + 
        Integer.toHexString(i) + " " + 
        String.format("%8s", Integer.toBinaryString(i)).replace(' ', '0') + " " + 
        new String(new byte[]{(byte)i},"UTF-8")
    );
}

Run Code Online (Sandbox Code Playgroud)

0到31是不可打印的字符,然后32是空格,后跟可打印字符:

...
31 31 1f 00011111 
32 32 20 00100000  
33 33 21 00100001 !
...
126 126 7e 01111110 ~
127 127 7f 01111111 
128 -128 80 10000000 ?

Run Code Online (Sandbox Code Playgroud)

delete是0x7f和之后,从128包含地最多254被印刷没有有效的字符.您还可以从UTF-8图表中看到:

代码点U+007F用一个字节0x7F(位01111111)U+0080表示,而代码点用两个字节0xC2 0x80(位11000010 10000000)表示.

如果您不熟悉UTF-8,我强烈建议您阅读这篇优秀的文章:

绝对最低每个软件开发人员绝对必须知道Unicode和字符集(没有借口!)

归档时间：	12 年，8 月前
查看次数：	24414 次
最近记录：	9 年，6 月前