UTF-16 是 ASCII 的超集吗?如果是,为什么根据 HTML 标准 UTF-16 与 ASCII 不兼容?

feO*_*O2x 3 .net html c# ascii utf-16

根据维基百科关于 UTF-16 的文章,“...[UTF-16] 也是唯一与 ASCII 不兼容的网络编码。” (在摘要末尾。)该声明指的是 HTML 标准。这是错误的说法吗?

我主要是一个 C#/.NET 开发人员,.NET 以及 .NET Core 在内部使用 UTF-16 来表示字符串。我很确定 UTF-16 是 ASCII 的超集,因为我可以轻松编写显示所有 ASCII 字符的代码:

public static void Main()
{
    for (byte currentAsciiCharacter = 0; currentAsciiCharacter < 128; currentAsciiCharacter++)
    {
        Console.WriteLine($"ASCII character {currentAsciiCharacter}: \"{(char) currentAsciiCharacter}\"");
    }
}
Run Code Online (Sandbox Code Playgroud)

当然,控制字符会弄乱控制台输出,但我认为我的陈述很清楚:16 位的低 7 位char采用相应的 ASCII 代码点,而高 9 位为零。因此 UTF-16 应该是 .NET 中 ASCII 的超集。

我试图找出为什么 HTML 标准说 UTF-16 与 ASCII 不兼容,但似乎他们只是这样定义它

ASCII 兼容编码是任何非 UTF-16 编码的编码。

我找不到任何解释为什么 UTF-16 在他们的规范中不兼容。

我的详细问题是:

  1. UTF-16 实际上与 ASCII 兼容吗?或者我在这里错过了什么?
  2. 如果兼容,为什么 HTML 标准说它不兼容?也许是因为字节顺序?

kof*_*ann 5

ASCII 是 7 位编码并存储在单个字节中。UTF-16 使用 2 个字节的块 (ord) ,这使它立即不兼容。UTF-8 使用一个字节块,拉丁字母与 ASCII 匹配。IOW,UTF-8 旨在向后兼容 ASCII 编码。

  • 感谢您指出一字节和两字节长度之间的差异。但按照这个说法,UTF-32也应该不兼容吧? (2认同)