小编chf*_*foo的帖子

《辛普森一家》上的这个mojibake / krakozyabry说什么?

在《辛普森一家》第12季第07集“大赚钱雀跃”上,我注意到几年前俄罗斯飞船上出现了“乱码”标志。今天,我决定随机搜索,看看是否有人解码了它们,但找不到任何结果。

两名俄罗斯人在太空船中争吵的情节的屏幕快照。 可以看到两个在墙上显示乱码的迹象。

我怀疑这是显示为Latin-1或Windows-1252的KOI8-R。我能抓到的图像不是很清楚。

如下面的Python 3代码解释器交互所示,我对mojibake有两种解释:

>>> 'Ï‹ÏËÏÁ ¿Ä ÄÏÍ.†.'.encode('windows-1252').decode('koi8_r')
'?????? ©? ???.?.'
>>> 'Ï<ÏËÏÁ ¿Ä ÄÏÍ.×.'.encode('latin1').decode('koi8_r')
'?<???? ©? ???.?.'
Run Code Online (Sandbox Code Playgroud)

查看Wikpedia上的代码表,我无法弄清楚“ <”和“ +”等符号是什么。我考虑过强行使用,并将其与某种拼写检查字典进行匹配,但我希望先获得一些帮助。

原始文字或含义仍可以恢复吗?还是真的很乱?

(我很高兴有人知道它在说什么,但是我想看看是否有可能通过一些代码解决这个问题。)

编辑:天真的脚本:

codec_list = ['ascii', 'big5', 'big5hkscs', 'cp037', 'cp424', 'cp437',
'cp500', 'cp720', 'cp737', 'cp775', 'cp850', 'cp852', 'cp855', 'cp856',
'cp857', 'cp858', 'cp860', 'cp861', 'cp862', 'cp863', 'cp864', 'cp865',
'cp866', 'cp869', 'cp874', 'cp875', 'cp932', 'cp949', 'cp950', 'cp1006',
'cp1026', 'cp1140', 'cp1250', 'cp1251', 'cp1252', 'cp1253', 'cp1254',
'cp1255', 'cp1256', 'cp1257', 'cp1258', 'euc_jp', 'euc_jis_2004',
'euc_jisx0213', 'euc_kr', 'gb2312', 'gbk', 'gb18030', 'hz', 'iso2022_jp',
'iso2022_jp_1', 'iso2022_jp_2', …
Run Code Online (Sandbox Code Playgroud)

character-encoding mojibake

5
推荐指数
1
解决办法
716
查看次数

标签 统计

character-encoding ×1

mojibake ×1