jwl*_*jwl 15 unicode localization internationalization
我试图找到一个资源,可用于将语言(或更可能是脚本)连接到Unicode字符块.这样的资源将用于查找诸如"法语中使用什么Unicode块?"之类的问题.或"什么语言使用0A80-0AFF(http://unicodinator.com/#Block-Gujarati)的块?" 你知道这样的资源吗?
我希望能够在unicode.org上轻松找到这些信息.我很快就能找到一个将国家代码与语言联系起来的好桌子(http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html).但是我花了很多时间来寻找与Unicode Blocks to Languages相关的东西.它可能我有一个术语问题阻止我在这里连接点...
在这种情况下,我并不挑剔"语言"(Java语言环境代码或ISO 639代码或其他)的含义.我也明白,有可能不是确切的答案,因为,例如,一个阿拉伯语的文件可以包含拉丁,此外其他文本从阿拉伯语块字符(http://unicodinator.com/#Block-Arabic,HTTP:// unicodinator.com/#Block-Arabic_Supplement).但肯定有一些表格说"这些语言与这些块一起使用"......我也不挑剔格式(XML,CSV等),我可以轻松地将其转换为我可以用于我的应用程序的数据.而且,我确实意识到引用可能会将Scripts连接到Blocks,而不是语言(尽管Scripts可以映射到Languages).
我确实意识到这将是一个多对多的表(因为许多语言使用来自多个块的字符,并且许多块被多种语言使用); 我确实意识到这无法准确回答,因为Unicode代码点不是特定于语言的 - 但是,"这个国家的语言是什么"这个问题也没有(对大多数国家而言,答案可能是"大部分"),像这样(http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html)仍然可以创建,有意义和有用.
至于为什么我想要这样的东西:我想用代码块的全局热图和语言列表来增强http://unicodinator.com ; 我也有一个我正在修补的游戏概念.除此之外,其他人可能还有许多其他用途(字体创建?启发式,快速,最佳猜测的语言检测现在谷歌翻译API正在消失?研究项目?).
jwl*_*jwl 12
我从Unicode.org自己得到了答案!在CLDR子项目中,有以下文档:
对于每个语言ID,您可以搜索"exemplarCharacters":
<exemplarCharacters>[\u064B \u064C \u064D \u064E \u064F \u0650 \u0651 \u0652 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?]</exemplarCharacters>
<exemplarCharacters type="auxiliary">[\u200C\u200D\u200E\u200F]</exemplarCharacters>
<exemplarCharacters type="currencySymbol" draft="contributed">[a b c d e f g h i j k l m n o p q r s t u v w x y z]</exemplarCharacters>
<exemplarCharacters type="index" draft="contributed">[? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?]</exemplarCharacters>
Run Code Online (Sandbox Code Playgroud)
或者,有这个页面:http://unicode.org/repos/cldr-tmp/trunk/diff/by_type/misc.exemplarCharacters.html,看起来像所有这些.我将把这些数据重新组合成一个langid - >某种类型的blockid地图,我可能会知道@borrible的"答案"(而不是让我的答案).
归档时间: |
|
查看次数: |
2365 次 |
最近记录: |