土耳其语将带点 I 和不带点I视为两个单独的字符,每个字符都有自己的大写和小写形式。
\n\nUppercase Lowercase\nI U+0049 \xc4\xb1 U+0131\n\xc4\xb0 U+0130 i U+0069\nRun Code Online (Sandbox Code Playgroud)\n\n而在使用拉丁字母的其他语言中,我们有
\n\nUppercase Lowercase\nI U+0049 i U+0069\nRun Code Online (Sandbox Code Playgroud)\n\n现在,Unicode 联盟本可以将其实现为六个不同的字符,每个字符都有自己的大小写规则,但决定只使用四个字符,在不同的区域设置中具有不同的大小写规则。这对我来说似乎很奇怪。该决定背后的理由是什么?
\n\n具有六个不同字符的可能实现:
\n\nUppercase Lowercase\nI U+0049 i U+0069\nI NEW \xc4\xb1 U+0131\n\xc4\xb0 U+0130 i NEW\nRun Code Online (Sandbox Code Playgroud)\n\n当前使用的代码点:
\n\nU+0049 \xe2\x80\xb9I\xe2\x80\xba \\N{LATIN CAPITAL LETTER I}\nU+0130 \xe2\x80\xb9\xc4\xb0\xe2\x80\xba \\N{LATIN CAPITAL LETTER I WITH DOT ABOVE}\nU+0131 \xe2\x80\xb9\xc4\xb1\xe2\x80\xba \\N{LATIN SMALL LETTER DOTLESS I}\nU+0069 \xe2\x80\xb9i\xe2\x80\xba \\N{LATIN SMALL LETTER I}\nRun Code Online (Sandbox Code Playgroud)\n
有一个理论上的原因,也有一个实际的原因。
\n\n理论上,i大多数拉丁字母的 和i土耳其语和阿塞拜疆字母的 是相同的,而且I大多数拉丁字母和土耳其语字母的 是相同的。I土耳其语和阿塞拜疆语字母表的字母表也是相同的。字母表之间的关系也有所不同。人们可以很容易地争辩说它们实际上是不同的(正如您提议的编码对待它们一样),但这就是语言委员会在 20 世纪 20 年代土耳其定义字母表和正字法时考虑它们的方式,而阿塞拜疆在 1990 年代的使用则复制了这一点。
(相比之下,有一些基于拉丁语的脚本在i语义上应该被认为是相同的,就像i从未用点绘制一样[只需对不同形状的字形使用不同的字体],特别是那些日期早于加洛林语或源自加洛林语的脚本,例如盖尔语文字是如何从岛屿文字衍生而来的。事实上,特别重要的是,永远不要用盖尔语文字书写爱尔兰语,并且在其上加点,i这可以与正字法的 s\xc3\xad buailte 变音符号进行比较。不幸的是,许多尝试使用此脚本的字体不仅添加了一个点,而且还造成了更严重的拼写错误,使其成为笔画,因此与 fada 变音符号混淆,因为它可能会出现在 s\ ixc3\xad 上一段时间buailte 不能,因此会使单词的拼写出现错误。有此错误的“爱尔兰”字体可能比没有此错误的字体更多)。
实际原因是现有的土耳其字符编码,如 ISO/IEC 8859-9、EBCDIC 1026 和 IBM 00857,它们与 ASCII 或 EBCDIC 的公共子集已经被处理,i并且I与 ASCII 或 EBCDIC 中的相同(也就是说,大多数拉丁字母表中的字符) 和\xc4\xb1作为\xc4\xb0单独的字符,它们是大小写更改的等效项;就像现在的 Unicode 一样。与此类脚本的兼容性需要继续这种做法。
| 归档时间: |
|
| 查看次数: |
2283 次 |
| 最近记录: |