mdu*_*dup 4 unicode iso-8859-1 character-encoding
我一直在参加关于XML的讲座,其中写着"ISO-8859-1是一种Unicode格式".这对我来说听起来不对,但是当我研究它时,我很难准确理解Unicode是什么.
你能称ISO-8859-1为Unicode格式吗?你有什么称呼Unicode?
Jon*_*ler 11
ISO 8859-1也称为Latin-1.它不是直接的Unicode格式.
但是,它确实具有唯一的特权,其代码指向0x00 .. 0xFF一对一地映射到Unicode代码点U + 0000 .. U + 00FF.因此,Unicode的前256个代码点被视为1字节无符号整数,映射到ISO 8859-1.
Peregring-lk 观察到ISO 8859-1没有定义控制代码.U + 0000..U + 007F和U + 0080..U + 00FF的Unicode图表表明在位置U + 0000..U + 001F和U + 007F中找到的C0控件来自ISO/IEC 6429:1992和同样在位置U + 0080..U + 9F中找到C1控制.关于C0和C1控件的维基百科建议标准是ISO/IEC 2022.请注意,三个C1控件没有正式名称.
一般而言,ISO 8859-1代码集的控制代码点被假定为来自ISO 6429(或2022)的C0和C1控制.
ISO-8859-1包含UTF-8 Unicode的子集,它与ASCII基本重叠.
所有ASCII都是UTF-8 Unicode.
代码为7f hex的所有ISO 8859-1(ISO Latin 1)字符都是ASCII兼容的,并且UTF-8在一个字节中兼容.带有变音符号的连字和字符使用多字节Unicode UTF-8表示,并使用Unicode 兼容性代码点.
所有UTF-8单字节字符都包含在ASCII中.
UTF-8还包含多字节序列,其中一些是可兼容的(即可排序的)等价物 - 组成的等价物 - 由兼容性代码点表示的字符,其中一些是由ASCII和ISO以外的所有其他字符集表示的字符.拉丁文1.
不,ISO 8859-1不是Unicode字符集,仅仅因为ISO 8859-1不为所有Unicode字符提供编码,只是其中的一小部分."charset"这个词有时会被松散地使用(因此通常最好避免使用),但作为一个技术术语,它意味着一个字符编码.
放宽定义以便"Unicode charset"意味着覆盖部分Unicode的编码将毫无意义.然后每个编码都是"Unicode字符集".
归档时间: |
|
查看次数: |
11380 次 |
最近记录: |