我有一个文本数据源,包括字节序列c3 82 c2 bf.在上下文中,我认为它应该是一个首都希腊披披号(Φ).
无论如何,我无法弄清楚正在使用什么编码; 我正在编写一个Python脚本来将这些数据处理成一个需要Unicode的数据库,它会在这个特定的数据序列上引发异常.
有关如何处理它的任何建议?
Juk*_*ela 18
解释为UTF-8,c3 82为"Â"U + 00C2,c2 bf为"¿"U + 00BF,这没有多大意义,但它在技术上是有效的UTF-8数据,所以不应该报告为字符级别数据错误.解释为UTF-16,它是Hangul音节,可能是CJK表意文字,取决于字节顺序,但仍然是正式有效的数据,尽管很可能不是那个意思.
这听起来像双重转换的结果,但很难做出有根据的猜测.如果它代表Φ,则UTF-16格式为03 A6或A6 03,UTF-8格式为CE A6,它们实际上与实际数据不相似.有关数据来源的信息可能有助于猜测可能发生的转码.
Pab*_*ruz 11
这可能是Ñ角色的双重转换.
ÑUTF-8中的字符是:0xc391.
如果您尝试从转换LATIN-1到UTF-8的Ñ这是在已编码的字符UTF-8 ,你会得到:0xc382c2bf.
为什么?
0xc382是来自LATIN-1字符的UTF-8翻译(带代字号的A) 0xc3Ã0xc2bf是¿无法从LATIN-1转换字符时获得的字符(0x91在LATIN-1中是无效字符)| 归档时间: |
|
| 查看次数: |
9261 次 |
| 最近记录: |