什么字符编码是c3 82 c2 bf？

Question

什么字符编码是c3 82 c2 bf？

我有一个文本数据源,包括字节序列c3 82 c2 bf.在上下文中,我认为它应该是一个首都希腊披披号(Φ).

无论如何,我无法弄清楚正在使用什么编码; 我正在编写一个Python脚本来将这些数据处理成一个需要Unicode的数据库,它会在这个特定的数据序列上引发异常.

有关如何处理它的任何建议？

Answer 1

解释为UTF-8,c3 82为"Â"U + 00C2,c2 bf为"¿"U + 00BF,这没有多大意义,但它在技术上是有效的UTF-8数据,所以不应该报告为字符级别数据错误.解释为UTF-16,它是Hangul音节,可能是CJK表意文字,取决于字节顺序,但仍然是正式有效的数据,尽管很可能不是那个意思.

这听起来像双重转换的结果,但很难做出有根据的猜测.如果它代表Φ,则UTF-16格式为03 A6或A6 03,UTF-8格式为CE A6,它们实际上与实际数据不相似.有关数据来源的信息可能有助于猜测可能发生的转码.

@Keith Thompson,没错!如果您有U + 00BF并且UTF-8对其进行编码,则会得到字节C2 BF.如果您错误地将这些字节解释为U + 00C2和U + 00BF以及UTF-8对它们进行编码,则会得到C3 82 C2 BF,与实际数据一样. (2认同)

Answer 2

Pab*_*ruz 11

这可能是Ñ角色的双重转换.

ÑUTF-8中的字符是:0xc391.

如果您尝试从转换LATIN-1到UTF-8的Ñ这是在已编码的字符UTF-8 ,你会得到:0xc382c2bf.

为什么？

0xc382是来自LATIN-1字符的UTF-8翻译(带代字号的A) 0xc3Ã
0xc2bf是¿无法从LATIN-1转换字符时获得的字符(0x91在LATIN-1中是无效字符)

归档时间：	13 年，6 月前
查看次数：	9261 次
最近记录：	6 年，5 月前