相关疑难解决方法(0)

编码/解码有什么区别？

我从来不确定我理解str/unicode解码和编码之间的区别.

我知道这str().decode()是因为当你有一个字符串,你知道它有一定的字符编码,给定编码名称它将返回一个unicode字符串.

我知道unicode().encode()根据给定的编码名称将unicode字符转换为字符串.

但我不明白是什么str().encode(),unicode().decode()是为了什么.任何人都可以解释,并可能还纠正我上面遇到的任何其他错误吗？

编辑:

几个答案给出了.encode关于字符串上的内容的信息,但似乎没有人知道.decodeunicode 是做什么的.

python string unicode character-encoding python-2.x

ʞɔı*_*ɔıu

2013 05-16

174
推荐指数

5
解决办法

10万
查看次数

SQLite,python,unicode和非utf数据

我开始尝试使用python在sqlite中存储字符串,并得到消息:

sqlite3.ProgrammingError:除非使用可解释8位字节串的text_factory(如text_factory = str),否则不得使用8位字节串.强烈建议您只需将应用程序切换为Unicode字符串.

好的,我切换到Unicode字符串.然后我开始收到消息:

sqlite3.OperationalError:无法使用文本'SigurRós'解码为UTF-8列'tag_artist'

尝试从数据库中检索数据时.更多的研究和我开始在utf8编码,但随后'SigurRós'开始看起来像'SigurRÃ³s'

注意: @John Machin指出,我的控制台设置为'latin_1'显示.

是什么赋予了？在阅读完这篇文章后,描述了我所处的完全相同的情况,似乎建议忽略其他建议并且毕竟使用8位字节串.

在开始这个过程之前,我对unicode和utf了解不多.我在过去的几个小时里学到了很多东西,但我仍然不知道是否有办法正确地将'ó'从latin-1转换为utf-8而不是破坏它.如果没有,为什么sqlite'强烈推荐'我将我的应用程序切换到unicode字符串？

我将用最后24小时内学到的所有内容的摘要和一些示例代码来更新这个问题,以便我的鞋子里的人可以有一个简单的(呃)指南.如果我发布的信息有任何错误或误导,请告诉我,我会更新,或者你们中的一个高级人员可以更新.

答案摘要

让我首先说明我理解的目标.处理各种编码的目标,如果您尝试在它们之间进行转换,则要了解源编码是什么,然后使用该源编码将其转换为unicode,然后将其转换为所需的编码.Unicode是基础,编码是该基础的子集的映射.utf_8为unicode中的每个字符都有空间,但由于它们与例如latin_1不在同一个地方,因此以utf_8编码并发送到latin_1控制台的字符串将不会像您期望的那样.在python中,获取unicode和进入另一个编码的过程如下:

str.decode('source_encoding').encode('desired_encoding')

Run Code Online (Sandbox Code Playgroud)

或者如果str已经是unicode

str.encode('desired_encoding')

Run Code Online (Sandbox Code Playgroud)

对于sqlite我实际上并不想再次编码,我想解码它并保持unicode格式.当您尝试在python中使用unicode和编码时,您可能需要注意以下四件事.

要使用的字符串的编码,以及要将其转换为的编码.
系统编码.
控制台编码.
源文件的编码

阐述:

(1)当您从源读取字符串时,它必须具有一些编码,如latin_1或utf_8.在我的情况下,我从文件名中获取字符串,所以不幸的是,我可以获得任何类型的编码.Windows XP使用UCS-2(Unicode系统)作为其本机字符串类型,这似乎是在欺骗我.对我来说幸运的是,大多数文件名中的字符不会由多个源编码类型组成,我认为我的全部都是完全latin_1,完全是utf_8,或者只是简单的ascii(这是两者的子集)那些).所以我只是阅读它们并将它们解码,就像它们仍处于latin_1或utf_8一样.但是,有可能你可以将latin_1和utf_8以及在Windows上的文件名中混合在一起的任何其他字符.有时这些角色可以显示为框,有时它们看起来很糟糕,有时它们看起来是正确的(重音符号等等).继续.

(2)Python有一个默认的系统编码,在python启动时设置,在运行时不能更改.详情请见此处.脏的总结...这里是我添加的文件:

\# sitecustomize.py  
\# this file can be anywhere in your Python path,  
\# but it usually goes in ${pythondir}/lib/site-packages/  
import sys  
sys.setdefaultencoding('utf_8')

Run Code Online (Sandbox Code Playgroud)

此系统编码是在没有任何其他编码参数的情况下使用unicode("str")函数时使用的编码.换句话说,python试图根据默认的系统编码将"str"解码为unicode.

(3)如果您正在使用IDLE或命令行python,我认为您的控制台将根据默认的系统编码显示.我出于某种原因使用带有eclipse的pydev,所以我必须进入我的项目设置,编辑测试脚本的启动配置属性,转到Common选项卡,然后将控制台从latin-1更改为utf-8,以便我可以直观地确认我在做什么工作.

(4)如果你想要一些测试字符串,例如

test_str = "ó"

Run Code Online (Sandbox Code Playgroud)

在你的源代码中,你必须告诉python你在该文件中使用了什么样的编码.(仅供参考:当我输入错误编码时,我必须使用ctrl-Z,因为我的文件变得不可读.)这可以通过在源代码文件的顶部放置一行来实现:

# -*- coding: utf_8 -*-

Run Code Online (Sandbox Code Playgroud)

如果您没有此信息,python会尝试默认将您的代码解析为ascii,因此:

SyntaxError: Non-ASCII character '\xf3' in file _redacted_ on line 81, but no encoding declared; …

Run Code Online (Sandbox Code Playgroud)

python sqlite unicode utf-8 python-2.x

Nat*_*ars

2018 07-28

65
推荐指数

4
解决办法

5万
查看次数

标签统计

python ×2

python-2.x ×2

unicode ×2

character-encoding ×1

sqlite ×1

string ×1

utf-8 ×1

编码/解码有什么区别？

SQLite,python,unicode和非utf数据

标签 统计

标签统计