假设我将UTF-8内容存储在内存中,如何使用指针读取字符?我认为我需要注意第8位表示多字节字符,但我究竟如何将序列转换为有效的Unicode字符?另外,wchar_t存储单个Unicode字符的正确类型是什么?
这就是我的想法:
wchar_t readNextChar (char*& p)
{
wchar_t unicodeChar;
char ch = *p++;
if ((ch & 128) != 0)
{
// This is a multi-byte character, what do I do now?
// char chNext = *p++;
// ... but how do I assemble the Unicode character?
...
}
...
return unicodeChar;
}