Ca*_*n P 3 unicode encoding character character-encoding cyrillic
我的数据库有问题,一些西里尔文字看起来像这样"\xc3\x90\xc2\xb1\xc3\x90\xc2\xbe\xc3\x90\xc2\xbb\xc3\x90\xc2\xbd\xc3\x90\xc2\xbe \xc3\x90\xc2\xb1\xc3\x90\xc2\xb0\xc3\x91 \xc3\x90\xc2\xb0\xc3\x90\xc2\xbc\xc3\x91\xc5\x92\xc3\x90\xc2\xb4\xc3\x91\xe2\x82\xac\xc3\x91\xc6\x92\xc3\x91\xc6\x92\xc3\x90\xc2\xbb\xc3\x90\xc2\xb6 \xc3\x91\xe2\x80\xa1 \xc3\x90"。有没有办法将其转换回人类可读的格式。
我需要阅读这件事的实际背景。
\n我能根据你的数据做的最好的事情......它看起来是西里尔文,但谷歌翻译没有做任何事情。看起来它是在默认的美国 Windows 编解码器下解码的,但实际上是 UTF-8,但数据不太正确。我正在使用 Python 尝试修复它:
\n\n>>> s.encode('cp1252').decode('utf8',errors='replace')\n'\xd0\xb1\xd0\xbe\xd0\xbb\xd0\xbd\xd0\xbe \xd0\xb1\xd0\xb0\xef\xbf\xbd \xd0\xb0\xd0\xbc\xd1\x8c\xd0\xb4\xd1\x80\xd1\x83\xd1\x83\xd0\xbb\xd0\xb6 \xd1\x87 \xef\xbf\xbd'\nRun Code Online (Sandbox Code Playgroud)\n