在C++ 11中是否需要u8字符串文字

因此,在这两种情况下"tørrfisk",u8"tørrfisk"你得到一个.但在前一个字面值中,编码是为编译器选择的任何内容,例如,对于字符大小为9,使用拉丁语1(或Windows ANSI Western),字符为8个字节加上nullbyte.而在后一个字面值中,编码为保证是UTF-8,其中"ø"将用2或3个字节编码(我不记得确切),对于稍大的数组大小.char const[n]

Answer 3

Die*_*ühl 6

编译器为平台选择自然的本机编码.在典型的POSIX系统上,它可能会选择ASCII,这可能取决于环境设置的ASCII范围之外的字符值.在大型机上,它可能会选择EBCDIC.比较从文件或命令行接收的字符串可能最适合本机字符集.在处理使用UTF-8显式编码的文件时,您可能最好使用u8"..."字符串.

这就是说,随着近来有关字符的变化编码串的处理的基本假设在C和C++得到了破:每个内部角色对象(char,wchar_t用来表示一个字符,等等).对于UTF-8字符串来说,这显然不再正确,因为每个字符对象只表示某个字符的字节.因此,所有字符串操作,字符分类等功能都不一定适用于这些字符串.我们没有任何好的图书馆可以处理这些字符串以包含在标准中.

Answer 4

Roi*_*ton 6

如果编译器的执行字符集设置为UTF-8，u8使用与不使用没有区别，因为编译器在两种情况下都会将字符转换为UTF-8。

但是，如果编译器执行字符集是系统的非 UTF8 代码页（例如 Visual C++ 的默认值），则在u8省略时可能无法正确处理非 ASCII 字符。例如，转换为宽字符串会在 VS15 中崩溃：

std::string narrowJapanese("???????");
std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>, wchar_t> convertWindows;
std::wstring wide = convertWindows.from_bytes(narrowJapanese); // Unhandled C++ exception in xlocbuf.

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，3 月前
查看次数：	22111 次
最近记录：	7 年，1 月前