lau*_*ent 22 utf-8 character-encoding cjk url-encoding
我正在研究维基百科上的汉字编码,我无法弄清楚他们正在使用什么.例如,"的"被编码为"%E7%9A%84"(参见此处).这是三个字节,但是本页描述的编码都没有使用三个字节来表示中文字符.例如,UTF-8使用2个字节.
我基本上试图将这三个字节与实际字符匹配.关于它可能是什么编码的任何建议?
jco*_*ctx 24
>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
?
Run Code Online (Sandbox Code Playgroud)
Ada*_*dam 18
维基百科页面的标题包括:
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
Run Code Online (Sandbox Code Playgroud)
所以页面是UTF-8.
| 归档时间: |
|
| 查看次数: |
75635 次 |
| 最近记录: |