Ste*_*314 13
看看这里......
http://en.wikipedia.org/wiki/UTF-8
如果您要查找字符之间的边界,您需要的是"描述"中的表格.
获得高位零的唯一方法是ASCII子集0..127,以单个字节编码.所有非ASCII码点都有第二个字节,最高两位为"10".代码点的前导字节永远不会有 - 它的高位表示字节数,但有一些冗余 - 您可以同样注意下一个没有"10"的字节来指示下一个代码点.
0xxxxxxx : ASCII
10xxxxxx : 2nd, 3rd or 4th byte of code
11xxxxxx : 1st byte of code, further high bits indicating number of bytes
Run Code Online (Sandbox Code Playgroud)
unicode中的代码点不一定与字符相同.例如,有修饰符代码点(例如重音符号).