我应该为多语言网站选择哪种排序规则？

#!/usr/bin/python
name = u"Jonas K\xf6lker" # \xf6 is o-umlaut
enc = name.encode('utf-8')
assert len(name) == 12  # \xf6 is one character
assert len(enc) == 13   # but two bytes in utf-8

import locale
locale.setlocale(locale.LC_COLLATE, "da_DK.utf8") # works on my machine
long_form = locale.strxfrm(enc)
assert len(long_form) == 38

Run Code Online (Sandbox Code Playgroud)

locale.strxfrm是一个函数Returns a string that behaves for cmp locale-aware，也就是说，它对一个字符串进行编码，使得与另一个类似编码的字符串的逐字节标准字典比较将产生与根据语言环境指定的排序规则函数比较字符串相同的结果。

一些观察结果：在中da_DK.utf8，字符串ouüö已排序。在中de_DE.utf8，字符串oöuü已排序。请注意，len(long_form) == 38并且 38 > 13。（长度也是 38 英寸de_DE.utf8。）

如果您的数据库在某个字符串字段上有一个索引，根据整理da_DK.utf8，它可能在内部做一些类似的事情strxfrm，以便进行简单的比较。（另一方面，磁盘很慢。如果每个字符的比较成本更高，而通过比较较少的字符来抵消，则基于更紧凑的表示进行索引可能会更快。）

你问“排序规则对查询速度有什么影响吗？”，我很确定答案是肯定的：“C”（又名“POSIX”）排序规则只是比较 unicode 代码点值，而丹麦语（da_DK.utf8) 和德语 ( de_DE.utf8) 语言环境做一些更棘手的事情。这将对查询速度产生一些影响，尽管我怀疑这不值得担心。

“表格的大小是否会根据排序规则而改变？” — 我可以想象有一个根据一个排序规则的索引和一个根据另一个排序规则的不同索引，或者只是这两个索引中的一个，并strxfrm应用了一些类似的转换。在那个假设场景中，如果有两个具有不同大小特征的排序规则，答案是肯定的。

“推荐的排序规则是什么？” — 这取决于您为什么需要对字符串进行排序。如果只是有一些规范的字符串排序方式，我可能会选择“C”。如果要根据人类的期望以排序的顺序向用户呈现数据，而这些期望是由他们的文化塑造的，并且您希望数据库（而不是其他层）进行排序，那么也许您应该为每个排序规则构建一个索引，即至少有一项da_DK.utf8适用于丹麦人，一项de_DE.utf8适用于德国人。不过，我认为这可能会很快变得相当大。

所有这些都高度依赖于数据库的内部工作方式；我认为它远远超出了“标准化”（大声笑！）SQL。与往常一样，请查阅特定数据库系统的文档。

归档时间：	14 年，8 月前
查看次数：	5028 次
最近记录：	10 年，5 月前