为什么我们从 MultiByte 转换为 WideChar？

Question

为什么我们从 MultiByte 转换为 WideChar？

我习惯于处理 ASCII 字符串，但现在使用 UNICODE 我对某些术语感到非常困惑：

什么是多字节字符和一个有widechar什么区别？多字节是指在内存中包含多个字节的字符，widechar只是一种数据类型来表示它吗？

为什么我们从MultiByteToWideCharand转换WideCharToMultiByte？

如果我声明如下：

wchar_t* wcMsg = L"?????";
MessageBoxW(0, wcMsg, 0, 0);

Run Code Online (Sandbox Code Playgroud)

如果我定义，它会正确打印消息UNICODE但是为什么我没有从WideCharToMultiByte??

我的项目中的字符集有什么区别：_MBCS和UNICODE？
MSDN 让我对“Windows API”感到困惑的最后一件事是 UTF-16。

任何人都可以用一些例子来解释。一个很好的澄清真的很感激。

Answer 1

use*_*447 12

ASCII 字符串的字符宽度为 1 个字节（通常为 8 位，很少为 7、9 或其他位宽）。这是当时的遗留问题，当时内存大小非常小且昂贵，而且处理器通常每条指令只能处理一个字节。

很容易想象，一个字节远远不足以存储世界上所有可用的字形。仅中文就有 87.000 个字形。一个字符通常只能处理 256 个字形（8 位字节）。ASCII仅定义了 96 个字形（加上较低的 32 个字符，它们被定义为不可打印的控制字符），这使其成为 7 位字符集。这对于英文上下字符、数字以及一些标点符号和其他字形来说已经足够了。ASCII 不使用公共 8 位字节中的最高位。

要处理多于一个字节可以容纳的字形，一种方法是将基本字形存储在一个字节中，将其他常见字形存储在两个字节中，将很少使用的字形存储在 3 个甚至更多字节中。这种方法称为多字节字符集或可变宽度编码。一个非常常见的例子是UTF 8，它对一个字符使用 1 到 4 个字节。它将 ASCII 字符集存储在一个字节中（因此它也向后兼容 ASCII）。最高位被定义为一个开关：如果它被设置，其他字节将跟随。这同样适用于以下字节，从而形成最多 4 个字节的“链”。可变宽度字符集的优点是：

向后兼容 7 位 ASCII 字符集
内存友好 - 使用尽可能少的内存

缺点是：

处理起来更困难，处理器也很昂贵。您不能简单地迭代一个字符串并假设每个字符串都myString[n]提供一个字形；相反，如果后面有更多字节，您必须评估每个字节。

另一种方法是将每个字符存储在由 n 个字节组成的固定长度的字中，该字的宽度足以容纳所有可能的字形。这称为固定宽度字符集；所有字符都具有相同的宽度。一个众所周知的例子是UTF32。它是 32 位宽，可以在一个字中存储所有可能的字符。固定宽度字符集的优点和缺点显然与可变宽度字符集相反：内存繁重但更容易迭代。

但是微软甚至在 UTF32 可用之前就选择了他们的原生字符集：他们使用UTF16作为 Windows 的字符集，它使用至少 2 个字节（16 位）的字长。这足以存储比单字节字符集更多的字形，但不是全部。考虑到这一点，微软今天对“多字节”和“Unicode”的区分有点误导，因为他们的 unicode 实现也是多字节字符集——只是一个字形的最小大小更大的字符集。有人说这是一个很好的妥协，有人说这是两全其美的——无论如何，事情就是这样。当时（Windows NT）它是唯一可用的Unicode字符集，从这个角度来看，

当然，如果您想将一种编码（假设为 UTF8）的字符串转换为另一种编码（假设为 UTF16），则必须对它们进行转换。这就是MultiByteToWideChar对你的作用，WideCharToMultiByte反之亦然。还有一些其他的转换函数和库。

这种转换花费了很多时间，因此结论是：如果您大量使用字符串和系统调用，为了提高性能，您应该使用操作系统的本机字符集，在您的情况下是 UTF16。

因此，对于您的字符串处理，您应该选择wchar_t，在 Windows 的情况下意味着 UTF16。不幸的是，的宽度wchar_t可能因编译器而异；在 Unix 下它通常是 UTF32，在 Windows 下它是 UTF16。

_MBCS是一个自动预处理器定义，它告诉您已将字符集定义为多字节，并UNICODE告诉您已将其设置为 UTF16。

你可以写

wchar_t* wcMsg = L"?????";
MessageBoxW(0, wcMsg, 0, 0);

Run Code Online (Sandbox Code Playgroud)

即使在没有UNICODE定义集的程序中。该L"前缀定义，你的字符串是UNICODE（宽字符）字符串，并且可以调用系统功能与它。

不幸的是你不能写

char* msg = u8"?????";
MessageBoxA(0, msg, 0, 0);

Run Code Online (Sandbox Code Playgroud)

C++11 中改进了字符集支持，因此您还可以通过前缀将字符串定义为 UTF8 u8。但是带有“A”后缀的 Windows 函数不理解 UTF8，至少在 Windows 10 Build 17035 之前（参见 tambre 的评论）（另请参见/sf/answers/35335261/）这也建议使用Windows/Visual Studio 下的 UTF16 又名 UNICODE。

你的项目设置为“使用多字节字符集”或“使用Unicode字符集”也改变了很多其他角色依赖定义：最常见的是宏TCHAR，_T()和所有的字符串没有后缀，比如依赖Windows函数MessageBox()（不W或A后缀）如果您将项目设置为“使用多字节字符集”，TCHAR则将扩展为char，_T()将扩展为空，并且 Windows 函数将A附加后缀。如果您将项目设置为“使用 Unicode 字符集”，TCHAR则将扩展为wchar_t，_T()将扩展为L前缀，Windows 函数将W附加后缀。

这意味着，写作

TCHAR* msg = _T("Hello");
MessageBox(0, msg, 0, 0);

Run Code Online (Sandbox Code Playgroud)

将使用多字节字符集或 unicode 集编译两者。您可以在MSDN 上找到一些关于这些主题的综合指南。

很遗憾

TCHAR* msg = _T("?????");
MessageBox(0, msg, 0, 0);

Run Code Online (Sandbox Code Playgroud)

选择“使用多字节字符集”时仍然不起作用 - Windows 函数仍然不支持 UTF8，您甚至会收到一些编译器警告，因为您已经定义了包含在字符串中的 unicode 字符，而不是标记为 Unicode（_T()不扩展为u8）

年表不太对。Unicode Consortium 最初使用 16 位字符集，推荐的编码是使用 16 位单元。这种编码被称为“Unicode”。Windows 遵循该建议并将其编码称为“Unicode”。直到 1996 年，即 Windows NT 发布很久之后，Unicode 联盟才切换到 32 位字符集。因此，在设计 Windows 时，将 16 位字符编码称为“Unicode”是正确的。（更令人困惑的是，Unicode 联盟后来缩小到 26 位字符集。） (8认同)
（更正：Unicode目前是21位字符集，而不是26位。有17个平面，每个平面有65536个字符。） (3认同)
“但是带有“A”后缀的 Windows 函数不理解 UTF8。” 从 17035 开始，您可以将 UTF8 设置为默认编码 (https://vgy.me/Ny8gpr.png)，并且“A”变体函数将正确处理 UTF8。 (2认同)

归档时间：	8 年，7 月前
查看次数：	3248 次
最近记录：	6 年，7 月前