Joa*_*ega 7 sorting collation mongodb
有一个集合:
{"name": "a"},
{"name": "B"},
{"name": "b"},
{"name": "c"},
{"name": "á"},
{"name": "A"}
Run Code Online (Sandbox Code Playgroud)
恩.如何用西班牙语不敏感的方式对它进行排序?
我试过这个:
var abc = [{"name": "a"}, {"name": "B"}, {"name": "b"}, {"name": "c"}, {"name": "á"}, {"name": "A"}];
for (i in abc) db.abc.save(abc[i]);
db.abc.find({},{"_id":0}).sort({"name":1});
Run Code Online (Sandbox Code Playgroud)
输出是:
[
{ "name" : "A" },
{ "name" : "B" },
{ "name" : "a" },
{ "name" : "b" },
{ "name" : "c" },
{ "name" : "á" },
]
Run Code Online (Sandbox Code Playgroud)
期望的结果:
[
{ "name" : "a" },
{ "name" : "á" },
{ "name" : "A" },
{ "name" : "b" },
{ "name" : "B" },
{ "name" : "c" }
]
Run Code Online (Sandbox Code Playgroud)
Edw*_*ets 10
我知道这是一个老线程,但我认为无论如何回答都会很有用.
您绝对不希望在应用程序中进行排序,因为这意味着您必须将集合中的所有文档都放入内存中以对它们进行排序并返回所需的窗口.如果你的收藏很大,那么效率极低.数据库应该进行排序并将窗口返回给您.
但是,你说,MongoDB不支持对语言环境敏感的排序.你是如何解决这个问题的?神奇的是"排序键"的概念.
基本上,假设你有从"a"到"z"的常规英文/拉丁字母.你要做的是创建一个从"a"到"01",从"b"到"02"等,到"z"到"26"的排序键映射.也就是说,将每个字母映射到该语言的排序顺序中的数字,然后将该数字编码为字符串.然后,将要排序的字符串映射到此类排序键.例如,"abc"将变为"010203".然后使用属性的排序键为文档添加属性,并使用该语言环境的名称追加属性的名称:
{
name: "abc",
name_en: "010203"
}
Run Code Online (Sandbox Code Playgroud)
现在,您可以通过索引属性"name_en"对语言"en"进行排序,并使用普通的基于英语的简单MongoDB排序选择器和范围而不是"name"属性.
现在,假设你有另一种疯狂的语言"xx",其中字母的顺序是"acb"而不是"abc".(是的,有些语言会以这种方式混淆拉丁字母的顺序!)排序键将是这样的:
{
name: "abc",
name_en: "010203",
name_xx: "010302"
}
Run Code Online (Sandbox Code Playgroud)
现在,您所要做的就是在name_en和name_xx上创建索引并使用常规MongoDB排序,以便在这些区域设置上正确排序.基本上,额外属性是用于在不同语言环境中进行排序的代理.
那你在哪里得到这些映射呢?毕竟,你不是全球化专家,对吧?
好吧,如果你使用的是Java,C或C++,那么现成的类就可以为你做这个映射.在Java中,使用标准Collator类,或使用icu4j Collator类.如果您使用的是C/C++,请使用ICU Collator函数/类的C/C++版本.对于其他语言,除非你能找到一个已经完成它的库,否则你有点不幸.
以下是一些帮助您找到它们的链接:
标准Java库Collator:http://docs.oracle.com/javase/7/docs/api/java/text/Collator.html#getCollationKey( java.lang.String)
C++ Collator类:http://icu-project.org/apiref/icu4c/classicu_1_1Collator.html#ae0bc68d37c4a88d1cb731adaa5a85e95
您还可以创建不同的排序键,允许您按区域设置不区分大小写(是的,大小写映射是区域设置敏感!)和不区分重音,Unicode变体不敏感,或上述任意组合.唯一的问题是,现在您有许多属性与每个可排序属性并行,并且在更新基本"name"属性时必须保持它们全部同步.这是你所知道的痛苦,但仍然比在你的应用程序或业务逻辑层中进行排序更好.
还要注意带范围的光标.例如,在英语中,我们只是忽略字符的重音.因此,"Ö"以与"O"相同的方式排序,它将出现在"M"到"Z"的范围内.但是,在瑞典语中,重音字符排在"Z"之后.所以,如果你做一个范围"M" - "Z",你将包括一堆以"Ö"开头的记录,这些记录应该是英文的,但不是瑞典语.
如果拆分文档的文本属性,这也会对分片产生影响.小心哪个范围进入哪个分片.最好对那些不像语言环境敏感的东西进行分片,比如哈希.
| 归档时间: |
|
| 查看次数: |
6137 次 |
| 最近记录: |