什么字符编码是c3 82 c2 bf?

Jas*_*n S 9 unicode encoding

我有一个文本数据源,包括字节序列c3 82 c2 bf.在上下文中,我认为它应该是一个首都希腊披披号(Φ).

无论如何,我无法弄清楚正在使用什么编码; 我正在编写一个Python脚本来将这些数据处理成一个需要Unicode的数据库,它会在这个特定的数据序列上引发异常.

有关如何处理它的任何建议?

Juk*_*ela 18

解释为UTF-8,c3 82为"Â"U + 00C2,c2 bf为"¿"U + 00BF,这没有多大意义,但它在技术上是有效的UTF-8数据,所以不应该报告为字符级别数据错误.解释为UTF-16,它是Hangul音节,可能是CJK表意文字,取决于字节顺序,但仍然是正式有效的数据,尽管很可能不是那个意思.

这听起来像双重转换的结果,但很难做出有根据的猜测.如果它代表Φ,则UTF-16格式为03 A6或A6 03,UTF-8格式为CE A6,它们实际上与实际数据不相似.有关数据来源的信息可能有助于猜测可能发生的转码.

  • @Keith Thompson,没错!如果您有U + 00BF并且UTF-8对其进行编码,则会得到字节C2 BF.如果您错误地将这些字节解释为U + 00C2和U + 00BF以及UTF-8对它们进行编码,则会得到C3 82 C2 BF,与实际数据一样. (2认同)

Pab*_*ruz 11

这可能是Ñ角色的双重转换.

ÑUTF-8中的字符是:0xc391.

如果您尝试从转换LATIN-1UTF-8Ñ这是在已编码的字符UTF-8 ,你会得到:0xc382c2bf.

为什么?

  1. 0xc382是来自LATIN-1字符的UTF-8翻译(带代字号的A) 0xc3Ã
  2. 0xc2bf¿无法从LATIN-1转换字符时获得的字符(0x91LATIN-1中是无效字符)