L10N：区域特定排序的可信测试数据

Chr*_*tti 4 sorting testing localization

我正在开发一个国际化的数据库应用程序，该应用程序在单个实例中支持多个区域设置。当国际用户在建立在数据库之上的应用程序中对数据进行排序时，数据库理论上会使用适合与用户正在查看的数据相关联的区域设置的排序规则对数据进行排序。

我正在尝试查找满足两个条件的单词排序列表：

排序顺序遵循语言环境的整理规则
列出的单词将允许我针对语言环境执行大部分/所有特定的整理规则

我很难找到这样可信的测试数据。目前是否有此类排序测试数据集，如果有，它们是什么/在哪里？

“words.en.txt”是一个包含美式英语文本的示例文本文件：

Andrew
Brian
Chris
Zachary

Run Code Online (Sandbox Code Playgroud)

我计划以随机顺序将单词列表加载到我的数据库中，并检查列表的排序是否符合原始输入。

因为我对英语以外的任何语言都不流利，所以我不知道如何创建示例数据集，例如以下法语示例（称为“words.fr.txt”）：

cote
côte
coté
côté

Run Code Online (Sandbox Code Playgroud)

法国人更喜欢从右到左排列变音符号。如果您使用代码点顺序对其进行排序，它可能会像这样（这是一个不正确的排序规则）：

cote
coté
côte
côté

Run Code Online (Sandbox Code Playgroud)

谢谢你的帮助，克里斯

这是我发现的。

在Unicode的通用语言环境数据仓库（CLDR）是相当多的排序规则是为了国际化文本的权威。我能够在 ICU 项目的ICU Demonstration - Locale Explorer工具中找到几个符合 CLDR 规则的单词列表。事实证明，ICU（Unicode 的国际组件）使用 CLDR 规则来帮助解决常见的国际化问题。这是一个很棒的图书馆；一探究竟。

在某些情况下，通过直接对 CLDR 规则进行逆向工程来构造一些无意义的术语是有用的。在美国可用的搜索引擎不适合查找我在此测试中感兴趣的大小写/变音符号/其他细微差别的外国术语（回想起来，我想知道国际搜索引擎是否更适合此任务）。

归档时间：	15 年前
查看次数：	595 次
最近记录：	14 年，9 月前

如何在winforms中制作多语言应用程序 12

重复的本地化资源文件 7

是否可以使用ansible playbook禁用vault？ 7

如何在 Active Storage 测试中存根文件大小？（测试::单位） 6

GraphQL API - 有用于测试它的自动化工具吗？ 6

嘲笑Kiwi(iOS)对代表的期望 5

SQLite 查询使用 TEMP B-TREE FOR ORDER BY 而不是索引 3

如何从当月开始订购月份名称 3

基于单个单元格内的%符号排序 - R. 2

检查数组的排序 1

如何在Bash中连接字符串变量 2624

如何使用Git将标签推送到远程存储库？ 2091

如何将列表拆分为大小均匀的块？ 2068

原子和非原子属性之间有什么区别？ 1828

LINQ中的多个"order by" 1537

在Visual Studio中使用Git 1452

重写System.Object.GetHashCode的最佳算法是什么？ 1389

如何在git历史中grep(搜索)已提交的代码？ 1342

在jQuery中序列化为JSON 1189

网格布局上的手势检测 1076