我试图找到一个资源,可用于将语言(或更可能是脚本)连接到Unicode字符块.这样的资源将用于查找诸如"法语中使用什么Unicode块?"之类的问题.或"什么语言使用0A80-0AFF(http://unicodinator.com/#Block-Gujarati)的块?" 你知道这样的资源吗?
我希望能够在unicode.org上轻松找到这些信息.我很快就能找到一个将国家代码与语言联系起来的好桌子(http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html).但是我花了很多时间来寻找与Unicode Blocks to Languages相关的东西.它可能我有一个术语问题阻止我在这里连接点...
在这种情况下,我并不挑剔"语言"(Java语言环境代码或ISO 639代码或其他)的含义.我也明白,有可能不是确切的答案,因为,例如,一个阿拉伯语的文件可以包含拉丁,此外其他文本从阿拉伯语块字符(http://unicodinator.com/#Block-Arabic,HTTP:// unicodinator.com/#Block-Arabic_Supplement).但肯定有一些表格说"这些语言与这些块一起使用"......我也不挑剔格式(XML,CSV等),我可以轻松地将其转换为我可以用于我的应用程序的数据.而且,我确实意识到引用可能会将Scripts连接到Blocks,而不是语言(尽管Scripts可以映射到Languages).
我确实意识到这将是一个多对多的表(因为许多语言使用来自多个块的字符,并且许多块被多种语言使用); 我确实意识到这无法准确回答,因为Unicode代码点不是特定于语言的 - 但是,"这个国家的语言是什么"这个问题也没有(对大多数国家而言,答案可能是"大部分"),像这样(http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html)仍然可以创建,有意义和有用.
至于为什么我想要这样的东西:我想用代码块的全局热图和语言列表来增强http://unicodinator.com ; 我也有一个我正在修补的游戏概念.除此之外,其他人可能还有许多其他用途(字体创建?启发式,快速,最佳猜测的语言检测现在谷歌翻译API正在消失?研究项目?).
我遇到的情况是我正在阅读一串文本,我需要检测语言代码(en,de,fr,sp等).
在python中有一个简单的方法吗?
以下代码测试字符串中的字符是否都是中文字符.它适用于Python 3,但不适用于Python 2.7.我如何在Python 2.7中做到这一点?
for ch in name:
if ord(ch) < 0x4e00 or ord(ch) > 0x9fff:
return False
Run Code Online (Sandbox Code Playgroud)