维基百科上的汉字编码是什么?

lau*_*ent 22 utf-8 character-encoding cjk url-encoding

我正在研究维基百科上的汉字编码,我无法弄清楚他们正在使用什么.例如,"的"被编码为"%E7%9A%84"(参见此处).这是三个字节,但是本页描述的编码都没有使用三个字节来表示中文字符.例如,UTF-8使用2个字节.

我基本上试图将这三个字节与实际字符匹配.关于它可能是什么编码的任何建议?

jco*_*ctx 24


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
?
Run Code Online (Sandbox Code Playgroud)


虽然Unicode以16位编码,但utf8将其分解为3个字节.

  • @Laurent:不,因为(请在我之后重复)*Unicode不是编码*.Unicode是表示文本的标准,编码(实际上是几种编码)是标准的一部分. (20认同)

Ada*_*dam 18

维基百科页面的标题包括:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
Run Code Online (Sandbox Code Playgroud)

所以页面是UTF-8.

  • 字符集具有误导性。它的意思是“编码”,而不是字符集,它们经常混淆在一起 (2认同)

lov*_*soa 7

您给出的示例是IRI

IRI 使用 UTF8 编码。UTF8 实现了 unicode,在 unicode 中,每个字符都有一个代码点,对于所有汉字来说,代码点位于 0x4E00 到 0x9FFF(2 个字节)之间。

但 UTF8 不会仅通过存储代码点来对字符进行编码(UTF32 就是这样做的)。相反,它使用更复杂的标准,使所有中文表意文字的长度为 2或 3 个字节。