Unicode:代码点127上方的英文字符

Question

我在我的公司里发表关于Unicode和编码的技术演讲,其中我试图指出字符串总是被编码,开发人员不应该粗心地假设一切都是0-127 ASCII.

我有很多由错误编码的文本引起的问题的例子,但我没有找到任何简单英文文本的例子,其中数字编码在Unicode 代码点 127 之上.

基本英文字母在Unicode中映射到与普通旧ASCII相同的数值:范围A-Z映射到[65-90](或[0x41-0x5a]以十六进制),并[a-z]映射到[97-122](十六进制[0x61-0x7a]).

英文字母是否出现在代码图表的其他位置？我不是指旋律字母或其他拉丁文变体,只是简单的英文字母.

Answer 1

CJK字符通常在所有字体中都是等宽的,因为这就是这些语言的编写方式.

但是,当混合使用CJK和英文字符时,会遇到一个问题:ASCII字符通常不具有CJK字符的宽度.这意味着如果使用ASCII,则会丢失等宽属性 - 这可能并不总是令人满意.

为此,可以使用全宽字符(U + FF00-FFEE,维基百科,Unicode代码表)来代替"常规"字符.它们具有与单个CJK字符具有相同宽度的属性.

但是请注意,全局字符实际上从未在CJK上下文之外使用,即使在这些上下文中,也常常使用纯ASCII,因为单一间隔被认为是不重要的.