L10N:区域特定排序的可信测试数据

Chr*_*tti 4 sorting testing localization

我正在开发一个国际化的数据库应用程序,该应用程序在单个实例中支持多个区域设置。当国际用户在建立在数据库之上的应用程序中对数据进行排序时,数据库理论上会使用适合与用户正在查看的数据相关联的区域设置的排序规则对数据进行排序。

我正在尝试查找满足两个条件的单词排序列表:

  1. 排序顺序遵循语言环境的整理规则
  2. 列出的单词将允许我针对语言环境执行大部分/所有特定的整理规则

我很难找到这样可信的测试数据。目前是否有此类排序测试数据集,如果有,它们是什么/在哪里?

“words.en.txt”是一个包含美式英语文本的示例文本文件:

Andrew
Brian
Chris
Zachary
Run Code Online (Sandbox Code Playgroud)

我计划以随机顺序将单词列表加载到我的数据库中,并检查列表的排序是否符合原始输入。

因为我对英语以外的任何语言都不流利,所以我不知道如何创建示例数据集,例如以下法语示例(称为“words.fr.txt”):

cote
côte
coté
côté
Run Code Online (Sandbox Code Playgroud)

法国人更喜欢从右到左排列变音符号。如果您使用代码点顺序对其进行排序,它可能会像这样(这是一个不正确的排序规则):

cote
coté
côte
côté
Run Code Online (Sandbox Code Playgroud)

谢谢你的帮助,克里斯

Chr*_*tti 5

这是我发现的。

Unicode的通用语言环境数据仓库(CLDR)是相当多的排序规则是为了国际化文本的权威。我能够在 ICU 项目的ICU Demonstration - Locale Explorer工具中找到几个符合 CLDR 规则的单词列表。事实证明,ICU(Unicode 的国际组件)使用 CLDR 规则来帮助解决常见的国际化问题。这是一个很棒的图书馆;一探究竟。

在某些情况下,通过直接对 CLDR 规则进行逆向工程来构造一些无意义的术语是有用的。在美国可用的搜索引擎不适合查找我在此测试中感兴趣的大小写/变音符号/其他细微差别的外国术语(回想起来,我想知道国际搜索引擎是否更适合此任务)。