为什么扩展 ASCII(特殊)字符需要 2 个字节来存储?

iam*_*ind 3 c++ byte ascii utf-8 c++11

可打印的 ASCII 范围为 32 到 126。127DEL及其后的字符被视为扩展字符

\n\n

为了检查它们是如何存储在 中的std::string,我编写了一个测试程序:

\n\n
int main ()\n{\n  string s; // ASCII\n  s += "!"; // 33\n  s += "A"; // 65\n  s += "a"; // 97\n  s += "\xc3\x83\xc2\xa2"; // 131\n  s += "\xc3\x83\xc2\xa4"; // 132\n  s += "\xc3\x83\xc2\xa0"; // 133\n\n  cout << s << endl;  // Print directly\n  for(auto i : s)     // Print after iteration\n    cout << i;\n\n  cout << "\\ns.size() = " << s.size() << endl; // outputs 9!\n}\n
Run Code Online (Sandbox Code Playgroud)\n\n

上面代码中可见的特殊字符实际上看起来不同,这些可以在这个在线示例中看到(在 vi 中也可见)。

\n\n

在字符串 中s,前 3 个普通字符按预期各占用 1 个字节。接下来的 3 个扩展字符每个占用 2 个字节,令人惊讶。

\n\n

问题

\n\n
    \n
  1. 尽管是 ASCII(在 0 到 256 范围内),为什么这 3 个扩展字符占用 2 个字节的空间?
  2. \n
  3. 当我们迭代基于susing range 的循环时,如何计算出对于普通字符必须增加 1 次,对于扩展字符必须增加 2 次!?
  4. \n
\n\n

[注:这也可能适用于 C 和其他语言。]

\n

bam*_*s53 6

\n
    \n
  1. 尽管是 ASCII(在 0 到 256 范围内),为什么这 3 个扩展字符占用 2 个字节的空间?
  2. \n
\n
\n\n

如果将“being ASCII”定义为仅包含 [0, 256) 范围内的字节,则所有数据都是 ASCII:[0, 256) 与一个字节能够表示的范围相同,因此表示的所有数据根据您的定义,字节是 ASCII。

\n\n

问题是您的定义不正确,并且您对如何确定数据类型的看法不正确;字节序列表示的数据类型并不由这些字节决定。相反,数据类型是字节序列外部的元数据。(这并不是说不可能检查字节序列并从统计上确定它可能是什么类型的数据。)

\n\n

让我们检查您的代码,记住上述内容。我从您的源代码的两个版本中获取了相关片段:

\n\n
s += "\xc3\x83\xc2\xa2"; // 131\ns += "\xc3\x83\xc2\xa4"; // 132\n\ns += "\xc3\xa2"; // 131\ns += "\xc3\xa4"; // 132\n
Run Code Online (Sandbox Code Playgroud)\n\n

您将这些源代码片段视为浏览器中呈现的文本,而不是原始二进制数据。您将这两件事呈现为“相同”数据,但实际上它们并不相同。上图是两个不同的字符序列。

\n\n

然而,这两个文本元素序列有一些有趣的地方:其中一个序列,当使用某种编码方案编码为字节时,由与另一个文本元素序列相同的字节序列表示,当该序列使用以下方法编码为字节时:不同的编码方案。也就是说,磁盘上相同的字节序列可能代表两个不同的文本元素序列,具体取决于编码方案!换句话说,为了弄清楚字节序列的含义,我们必须知道它是什么类型的数据,以及使用什么解码方案。

\n\n

这就是可能发生的事情。在 vi 中你写道:

\n\n
s += "\xc3\xa2"; // 131\ns += "\xc3\xa4"; // 132\n
Run Code Online (Sandbox Code Playgroud)\n\n

您的印象是 vi 会使用扩展 ASCII 来表示这些字符,因此使用字节 131 和 132。但这是不正确的。vi 没有使用扩展 ASCII,而是使用不同的方案 (UTF-8) 来表示这些字符,该方案恰好使用两个字节来表示每个字符。

\n\n

后来,当您在不同的编辑器中打开源代码时,该编辑器错误地假定该文件是扩展的 ASCII 并按原样显示。由于扩展 ASCII 对每个字符使用一个字节,因此 vi 使用两个字节来表示每个字符,并为每个字节显示一个字符。

\n\n

最重要的是,您错误地认为源代码使用的是扩展 ASCII,因此您关于这些字符将由值为 131 和 132 的单个字节表示的假设是不正确的。

\n\n
\n
    \n
  1. 当我们使用基于范围的循环迭代 s 时,如何计算出对于普通字符必须增加 1 次,对于扩展字符必须增加 2 次!?
  2. \n
\n
\n\n

你的程序没有这样做。在您的 ideone.com 示例中,字符打印正常,因为独立打印代表这些字符的两个字节可以显示该字符。这里有一个例子可以清楚地说明这一点:live example

\n\n
std::cout << "Printed together: \'";\nstd::cout << (char)0xC3;\nstd::cout << (char)0xA2;\nstd::cout << "\'\\n";\n\nstd::cout << "Printed separated: \'";\nstd::cout << (char)0xC3;\nstd::cout << \'/\';\nstd::cout << (char)0xA2;\nstd::cout << "\'\\n";\n
Run Code Online (Sandbox Code Playgroud)\n\n
\n\n
Printed together: \'\xc3\xa2\'\nPrinted separated: \'\xef\xbf\xbd/\xef\xbf\xbd\'\n
Run Code Online (Sandbox Code Playgroud)\n\n

\'\xef\xbf\xbd\' 字符是遇到无效编码时显示的字符。

\n\n

如果您问如何编写一个程序来执行此操作,答案是使用了解所使用的编码细节的代码。要么获取一个能够理解 UTF-8 的库,要么自己阅读 UTF-8 规范。

\n\n

您还应该记住,这里使用 UTF-8 只是因为该编辑器和编译器默认使用 UTF-8。如果您使用不同的编辑器编写相同的代码并使用不同的编译器编译它,则编码可能完全不同;假设代码是 UTF-8 可能与您之前假设代码是扩展 ASCII 一样错误。

\n