Jer*_*tte 6 python unicode encoding utf-8
我不能让这个工作!我有一个保存游戏文件解析器的文本文件,其中包含一堆UTF-8中文名称,字节形式,如source.txt中所示:
\ XE6\X89\x8e\xe5\x8a\XA0\XE6\x8b\X89
但是,无论我如何将它导入Python(3或2),我最多得到这个字符串:
\\ \\ XE6 \\ X89 \\ x8e \\ xe5 \\ x8a \\ XA0 XE6 \\ \\ x8b X89
像其他线程建议的那样,我尝试将字符串重新编码为UTF-8,然后使用unicode escape解码它,如下所示:
stringName.encode("utf-8").decode("unicode_escape")
Run Code Online (Sandbox Code Playgroud)
但是它会混淆原始编码,并将其作为字符串:
'æ\ x89 \x8eå\ x8a \xa0æ\ x8b\x89'(打印此字符串会导致:æåæ)
现在,如果我手动复制并粘贴b +文件名中的原始字符串并对其进行编码,我会得到正确的编码.例如:
b'\xe6\x89\x8e\xe5\x8a\xa0\xe6\x8b\x89'.encode("utf-8")
Run Code Online (Sandbox Code Playgroud)
结果:'扎加拉'
但是,我无法以编程方式执行此操作.我甚至无法摆脱双斜线.
要清楚,source.txt包含单个反斜杠.我尝试过多种方式导入它,但这是最常见的:
with open('source.txt','r',encoding='utf-8') as f_open:
source = f_open.read()
Run Code Online (Sandbox Code Playgroud)
好的,所以我点击下面的答案(我认为),但这是有效的:
from ast import literal_eval
decodedString = literal_eval("b'{}'".format(stringVariable)).decode('utf-8')
Run Code Online (Sandbox Code Playgroud)
由于其他编码问题,我无法在整个文件中使用它,但是将每个名称提取为字符串(stringVariable),然后这样做有效!谢谢!
更清楚的是,原始文件不仅仅是这些混乱的编码.它仅对某些字段使用它们.例如,这是文件的开头:
{'m_cacheHandles': ['s2ma\x00\x00CN\x1f\x1b"\x8d\xdb\x1fr \\\xbf\xd4D\x05R\x87\x10\x0b\x0f9\x95\x9b\xe8\x16T\x81b\xe4\x08\x1e\xa8U\x11',
's2ma\x00\x00CN\x1a\xd9L\x12n\xb9\x8aL\x1d\xe7\xb8\xe6\xf8\xaa\xa1S\xdb\xa5+\t\xd3\x82^\x0c\x89\xdb\xc5\x82\x8d\xb7\x0fv',
's2ma\x00\x00CN\x92\xd8\x17D\xc1D\x1b\xf6(\xedj\xb7\xe9\xd1\x94\x85\xc8`\x91M\x8btZ\x91\xf65\x1f\xf9\xdc\xd4\xe6\xbb',
's2ma\x00\x00CN\xa1\xe9\xab\xcd?\xd2PS\xc9\x03\xab\x13R\xa6\x85u7(K2\x9d\x08\xb8k+\xe2\xdeI\xc3\xab\x7fC',
's2ma\x00\x00CNN\xa5\xe7\xaf\xa0\x84\xe5\xbc\xe9HX\xb93S*sj\xe3\xf8\xe7\x84`\xf1Ye\x15~\xb93\x1f\xc90',
's2ma\x00\x00CN8\xc6\x13F\x19\x1f\x97AH\xfa\x81m\xac\xc9\xa6\xa8\x90s\xfdd\x06\rL]z\xbb\x15\xdcI\x93\xd3V'],
'm_campaignIndex': 0,
'm_defaultDifficulty': 7,
'm_description': '',
'm_difficulty': '',
'm_gameSpeed': 4,
'm_imageFilePath': '',
'm_isBlizzardMap': True,
'm_mapFileName': '',
'm_miniSave': False,
'm_modPaths': None,
'm_playerList': [{'m_color': {'m_a': 255, 'm_b': 255, 'm_g': 92, 'm_r': 36},
'm_control': 2,
'm_handicap': 0,
'm_hero': '\xe6\x89\x8e\xe5\x8a\xa0\xe6\x8b\x89',
Run Code Online (Sandbox Code Playgroud)
'm_hero':字段之前的所有信息都不是utf-8.因此,如果文件仅由这些假的utf编码组成,那么使用ShadowRanger的解决方案是有效的,但是当我已经将m_hero解析为字符串并尝试转换它时它不起作用.Karin的解决方案确实有用.
Sha*_*ger 11
的问题是,所述unicode_escape编解码器被隐式地通过假定字节是逃逸修复的结果进行解码latin-1,而不是utf-8.你可以解决这个问题:
# Read the file as bytes:
with open(myfile, 'rb') as f:
data = f.read()
# Decode with unicode-escape to get Py2 unicode/Py3 str, but interpreted
# incorrectly as latin-1
badlatin = data.decode('unicode-escape')
# Encode back as latin-1 to get back the raw bytes (it's a 1-1 encoding),
# then decode them properly as utf-8
goodutf8 = badlatin.encode('latin-1').decode('utf-8')
Run Code Online (Sandbox Code Playgroud)
哪个(假设文件包含文字反斜杠和代码,而不是它们代表的字节)离开了你'\u624e\u52a0\u62c9'(哪个应该是正确的,我只是在没有字体支持的系统上,所以这只是repr基于Unicode转义的安全).您可以通过使用string-escape第一阶段的编解码器跳过Py2 中的一个步骤decode(我相信这将允许您省略该.encode('latin-1')步骤),但是此解决方案应该是可移植的,并且成本不应该太差.
我假设您使用的是Python3。在Python 2中,默认情况下字符串是字节,因此它对您来说是有效的。但是在Python 3中,字符串是unicode并解释为unicode,如果将字节字符串读取为unicode,这会使这个问题变得更加棘手。
该解决方案受到了mgilson的回答的启发。我们可以使用以下方法从字面上将您的unicode字符串评估为字节字符串literal_eval:
from ast import literal_eval
with open('source.txt', 'r', encoding='utf-8') as f_open:
source = f_open.read()
string = literal_eval("b'{}'".format(source)).decode('utf-8')
print(string) # ???
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5154 次 |
| 最近记录: |