是否有UTF8字符的分隔符字节?

liv*_*m95 9 c++ unicode utf-8

如果我有一个包含UTF8内容的字节数组,我将如何解析它?是否有分隔符字节,我可以拆分以获取每个字符?

Ste*_*314 13

看看这里......

http://en.wikipedia.org/wiki/UTF-8

如果您要查找字符之间的边界,您需要的是"描述"中的表格.

获得高位零的唯一方法是ASCII子集0..127,以单个字节编码.所有非ASCII码点都有第二个字节,最高两位为"10".代码点的前导字节永远不会有 - 它的高位表示字节数,但有一些冗余 - 您可以同样注意下一个没有"10"的字节来指示下一个代码点.

0xxxxxxx : ASCII
10xxxxxx : 2nd, 3rd or 4th byte of code
11xxxxxx : 1st byte of code, further high bits indicating number of bytes
Run Code Online (Sandbox Code Playgroud)

unicode中的代码点不一定与字符相同.例如,有修饰符代码点(例如重音符号).