如何修复错误的文本文件编码？

Question

如何修复错误的文本文件编码？

kat*_*osh 5 vim encoding utf-8 character-encoding

我有一个声称是 UTF-8 编码的文本文件。也就是说，当我称之为file -I $fileprints时$file: text/plain; charset=utf-8。但是当我使用 UTF-8 编码打开它时，某些字符似乎已损坏。也就是说，该文件应该是德语，但特殊的德语字符（例如）\xc3\xb6显示为\xc3\x83\xc2\xb6。

\n\n

我猜测声称是UTF-8是错误的，并执行enca脚本来猜测真正的编码。de但遗憾的是 enca 告诉我不支持该语言（德语）。

\n\n

还有其他方法可以修复该文件吗？

\n

Answer 1

Juk*_*ela 4

\xe2\x80\x9c\xc3\xb6\xe2\x80\x9d U+00F6 的 UTF-8 编码形式是 0xC3 0xB6，如果这些字节在 ISO-8859-1 中解释，则它们是 \xe2\x80\x9c \xc3\x83\xc2\xb6\xe2\x80\x9d (U+00C3 U+00B6)。因此，要么该文件实际上被读取并解释为 ISO-8859-1，即使您另有预期，要么存在双重编码：以前，该文件或其部分已被读取为 ISO-8859-1 （即使它是 UTF-8），并且被误解的数据随后被写为 UTF-8 编码。

\n

归档时间：	11 年，8 月前
查看次数：	6817 次
最近记录：	11 年，8 月前