UTF-8字符串是否总是短于UTF-16？

Question

如果我有2个相同文本的字符串,一个是UTF-8,另一个是UTF-16.
假设UTF-8字符串总是比UTF-16字符串更小或相同,是否安全？(按字节顺序)

Answer 1

不,虽然UTF-8文本通常会更短,但情况并非总是如此.

U + 0800和U + FFFF之间的字符将以UTF-8中的3个字节表示.

因此,当以UTF-8表示时,仅包含(或大部分)该范围内的字符的文本可以比在UTF-16中更长.

换句话说:

请注意,5和6字节序列曾经在UTF-8中定义,但根据最新标准不再有效,并且从不需要表示Unicode代码点.