MySQL排序规则最适合接受所有unicode字符?

DC_*_*DC_ 20 mysql collation

我们的专栏目前正在整理latin1_swedish_ci,特别是unicode字符显然已被剥离.我们希望能够接受字符,例如U+272A ?,U+2764 ?(见这个维基百科文章)等我倾向于utf8_unicode_ci,将这种整理处理这些和其他字符?我不关心速度,因为这个列不是索引.

MySQL版本:5.5.28-1

dec*_*eze 27

整理是你最担心,你需要思考的是什么样的字符集的列/表/数据库.整理(管理数据如何比较排序的规则)只是其中的必然结果.

MySQL支持多种Unicode字符集,utf8并且utf8mb4是最有趣的.utf8支持BMP中的Unicode字符,即所有Unicode的子集.utf8mb4自MySQL 5.5.3起可用,支持所有 Unicode.

与任何Unicode编码一起使用的排序规则很可能是xxx_general_cixxx_unicode_ci.前者是一种独立于语言的通用排序和比较算法,后者是一种更完整的语言独立算法,支持更多的Unicode功能(例如将"ß"和"ss"视为等效),但因此也较慢.

请参阅https://dev.mysql.com/doc/refman/5.5/en/charset-unicode-sets.html.