你的字符串是否与'string'相同.代码('XXX')

zou*_*yjs 6 python unicode decode

虽然标题是一个问题,但简短的答案显然是否定的.我试过shell.真正的问题是为什么？ps:string是一些非ascii字符,如中文,XXX是当前的字符串编码

>>> u'??' == '??'.decode('gbk')
False
//The first one is u'\xd6\xd0\xce\xc4' while the second one u'\u4e2d\u6587'

Run Code Online (Sandbox Code Playgroud)

上面的例子如上.我正在使用windows简体中文.默认编码是gbk,python shell也是.我得到了两个unicode对象不相等.

更新

a = '??'.decode('gbk')
>>> a
u'\u4e2d\u6587'
>>> print a
??

>>> b = u'??'
>>> print b
ÖÐÎÄ

Run Code Online (Sandbox Code Playgroud)

是的,如果编解码器成功解码字节,str.decode()通常会返回一个unicode字符串.但是,如果使用正确的编解码器,则值仅表示相同的文本.

您的示例文本未使用正确的编解码器; 你有GBK编码的文本,解码为Latin1:

>>> print u'\u4e2d\u6587'
??
>>> u'\u4e2d\u6587'.encode('gbk')
'\xd6\xd0\xce\xc4'
>>> u'\u4e2d\u6587'.encode('gbk').decode('latin1')
u'\xd6\xd0\xce\xc4'

Run Code Online (Sandbox Code Playgroud)

这些值确实不相等,因为它们不是同一个文本.

同样,使用正确的编解码器很重要; 不同的编解码器会导致非常不同的结果:

>>> print u'\u4e2d\u6587'.encode('gbk').decode('latin1')
ÖÐÎÄ

Run Code Online (Sandbox Code Playgroud)

我将示例文本编码为Latin-1,而不是GBK或UTF-8.解码可能已成功,但生成的文本不可读.

另请注意,粘贴非ASCII字符仅起作用,因为Python解释器已正确检测到我的终端编解码器.我可以将浏览器中的文本粘贴到终端中,然后将文本作为UTF-8编码的数据传递给Python.因为Python已经向终端询问了使用了什么编解码器,所以它能够从u'....'Unicode文字值中再次解码.打印encoded.decode('utf8') unicode结果时,Python再次对数据进行自动编码以适合我的终端编码.

要查看Python检测到的编解码器,请打印sys.stdin.encoding:

>>> import sys
>>> sys.stdin.encoding
'UTF-8'

Run Code Online (Sandbox Code Playgroud)

在处理不同的文本来源时,必须做出类似的决定.例如,从源文件中读取字符串文字要求您只使用ASCII(并使用转义码代替其他所有内容),或者在文件顶部为Python提供显式编解码符号.

我恳请你阅读:

绝对最低每个软件开发人员绝对必须知道关于Unicode和字符集(没有任何借口!)作者:Joel Spolsky
在Python的Unicode指南
Ned Batchelder的实用Unicode

更全面地了解Unicode的工作原理,以及Python如何处理Unicode.

@alvas:因为我们以不同的方式解释问题; Paulo将"XXX"表示'任何编解码器'. (2认同)

归档时间：	12 年，1 月前
查看次数：	1162 次
最近记录：	12 年，1 月前

NumPy的transpose()方法如何置换数组的轴？ 56

检查输入是否是字符串的列表/元组或单个字符串 51

如何强制Y轴只在Matplotlib中使用整数？ 49

numpy中的三维数组 45

在返回 FastAPI + uvicorn + Docker 应用程序上托管的状态 200 之前，不断收到“307 临时重定向” - 如何返回状态 200？ 45

哈希在Unicode密码上 6

如何在 Python 2 和 Python 3 中处理 subprocess.Popen 输出 6

Chrome 中的 JavaScript keydown 不捕获输出多个 Unicode 字符的单个按键 6

注释非法的 Unicode 序列 5

python读取包含\ x0a的文件,而不是python中的\\ x0a -1

'using'指令应该在命名空间的内部还是外部？ 1975

在Bash中提取文件名和扩展名 1969

JavaScript切断/切片/修剪字符串中的最后一个字符 1840

如何将Git托管项目中的所有本地更改还原到以前的状态？ 1830

何时使用虚拟析构函数？ 1420

如何使用jQuery更改超链接的href 1231

如何在PHP中使用bcrypt进行散列密码？ 1230

CSS calc()函数中的Sass变量 1182

抵消html锚点以调整固定标题 1056

功能编程是否取代了GoF设计模式？ 1028