pax*_*blo 79
是的,UTF8中的零字节是代码点0,NUL.有没有将在UTF8与内任何地方一个零字节编码其他Unicode代码点.
可能的代码点及其UTF8编码是:
Range Encoding Binary value
----------------- -------- --------------------------
U+000000-U+00007f 0xxxxxxx 0xxxxxxx
U+000080-U+0007ff 110yyyxx 00000yyy xxxxxxxx
10xxxxxx
U+000800-U+00ffff 1110yyyy yyyyyyyy xxxxxxxx
10yyyyxx
10xxxxxx
U+010000-U+10ffff 11110zzz 000zzzzz yyyyyyyy xxxxxxxx
10zzyyyy
10yyyyxx
10xxxxxx
Run Code Online (Sandbox Code Playgroud)
您可以看到所有非零ASCII字符都表示为自身,而所有多字节序列的所有字节都具有高位1.
您可能需要注意ascii明文协议不会严重处理非ASCII字符(因为这将是所有非ASCII代码点).