utf8_unicode_ci 和 utf8mb4_0900_ai_ci 有什么区别

Question

utf8_unicode_ci 和 utf8mb4_0900_ai_ci 有什么区别

Kam*_*ski 18 mysql unicode

mysqlutf8mb4_0900_ai_ci和utf8_unicode_ci数据库文本编码有什么区别（特别是在性能方面）？

更新：

utf8mb4_unicode_ci 和 utf8mb4_0900_ai_ci 有类似的区别吗？

Answer 1

Ric*_*mes 32

的编码是相同的。也就是说，字节看起来是一样的。
该字符集是不同的。utf8mb4 有更多字符。
该整理（comparisions是如何完成的）是不同的。
该性能比较是不同的，但它基本上没有什么关系。

utf8_unicode_ci暗示CHARACTER SET utf8，它仅包括 1 字节、2 字节和 3 字节的 UTF-8 字符。因此它排除了大多数表情符号和一些汉字。

utf8mb4_unicode_ci暗示CHARACTER SET utf8mb4是COLLATION4 字节的对应CHARACTER SET utf8mb4。

Unicode 组织多年来一直在发展规范。以下是从它的“版本”到 MySQL 排序规则的映射：

4.0   _unicode_
5.20  _unicode_520_
9.0   _0900_

Run Code Online (Sandbox Code Playgroud)

大多数差异将出现在大多数人从未遇到过的领域。一个例子：在某些时候，一项更改允许以某种方式区分和排序表情符号。

后缀（MySQL 文档）：

_bin      -- just compare the bits; don't consider case folding, accents, etc
_ci       -- explicitly case insensitive (A=a) and implicitly accent insensitive (a=á)
_ai_ci    -- explicitly case insensitive and accent insensitive
_as (etc) -- accent-sensitive (etc)

Run Code Online (Sandbox Code Playgroud)

表现：

_bin         -- simple, fast
_general_ci  -- fails to compare multiple letters; eg ss=ß, so somewhat fast
...          -- slower
_900_        -- (8.0) much faster because of a rewrite

Run Code Online (Sandbox Code Playgroud)

但是：整理速度通常是查询中性能问题中最少的。 INDEXes、JOINs、子查询、表扫描等对性能更为重要。

`utf8mb4_unicode_ci` 和 `utf8mb4_0900_ai_ci` 之间有类似的区别吗？ (3认同)
@BugWhisperer - “utf8mb4”的最大字符是 4 个字节。这适用于所有 utf8mb4 _collations_（“utf8mb4_*，包括那个）。 (2认同)
@Stalinko - 来自 OracleOpenWorld。一位开发人员指出，8.0 对排序规则代码进行了大幅重写，并指出它的速度要快得多。（我还没有设计出一个实际的测试用例来验证或量化加速。） (2认同)
@Stalinko - 测量转换前后的时间。请告诉我们。 (2认同)

归档时间：	7 年，3 月前
查看次数：	13344 次
最近记录：	5 年，1 月前