如何在python中将u'\ uf04a'转换为unicode

Question

我试图在python中解码你'\ uf04a'因此我可以打印它而没有错误警告.换句话说,我需要将愚蠢的微软Windows 1252字符转换为实际的unicode

一个例子看起来像这样:

"Oh god please some advice ?":

出[408]:你好,请一些建议\ uf04c'

给定一个这样的线程作为测试的一个例子:

thread = u'who are you \uf04a Why you are so harsh to her \uf04c'
thread.decode('utf8')

print u'\uf04a'
print u'\uf04a'.decode('utf8') # error!!!

'charmap'编解码器不能编码位置1526中的字符u'\ uf04a':字符映射到未定义

在两个Python脚本的帮助下,我成功转换了u'\ x92',但我仍然坚持使用u'\ uf04a'.有什么建议？

参考

解:

根据下面的评论:我用问号('？')替换这些字符集

thread = u'who are you \uf04a Why you are so harsh to her \uf04c'
thread = thread.replace(u'\uf04a', '?')
thread = thread.replace(u'\uf04c', '?')

希望这对其他初学者有帮助.

Answer 1

符号u'\uf04a'表示Unicode码点U + F04A,根据定义,它是私有用码点.这意味着Unicode标准不会为其分配任何字符,也永远不会; 相反,私人协议可以使用它.

因此谈论打印它是没有意义的.如果在某些上下文中有关于使用它的私有协议,则使用具有分配给该代码点的字形的字体来打印它.不同的协议和不同的字体可以将完全不同的字符和字形分配给相同的代码点.

U + F04A可能是在某些早期阶段对字符数据进行错误处理(例如,错误转换)的结果.