UnicodeDecodeError:'utf8'编解码器无法解码字节0x9c

tra*_*lad 257 python linux python-unicode

我有一个套接字服务器,应该从客户端接收UTF-8有效字符.

问题是一些客户端(主要是黑客)正在通过它发送所有错误的数据.

我可以很容易地区分真正的客户端,但我正在记录所有发送的数据文件,以便我以后可以分析它.

有时我会得到这样的字符œ导致UnicodeDecodeError错误.

我需要能够使用或不使用这些字符来生成字符串UTF-8.


更新:

对于我的特殊情况,套接字服务是一个MTA,因此我只希望接收ASCII命令,如:

EHLO example.com
MAIL FROM: <john.doe@example.com>
...
Run Code Online (Sandbox Code Playgroud)

我用JSON记录了所有这些.

然后一些没有良好意图的人决定出售各种垃圾.

这就是为什么对于我的特定情况,剥离非ASCII字符是完全可以的.

tra*_*lad 319

http://docs.python.org/howto/unicode.html#the-unicode-type

str = unicode(str, errors='replace')
Run Code Online (Sandbox Code Playgroud)

要么

str = unicode(str, errors='ignore')
Run Code Online (Sandbox Code Playgroud)

注意: 这将删除(忽略)有问题的字符,返回没有它们的字符串.

对我来说,这是理想的情况,因为我使用它作为非ASCII输入的保护,这是我的应用程序不允许的.

或者:使用codecs模块中的open方法读入文件:

import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
                 errors='ignore') as fdata:
Run Code Online (Sandbox Code Playgroud)

  • 是的,虽然这通常是不好的做法/危险,因为你只会丢失角色.最好先确定或检测输入字符串的编码并将其解码为unicode,然后编码为UTF-8,例如:`str.decode('cp1252').encode('utf-8')` (42认同)
  • “unicode()”在哪里定义? (8认同)
  • 如果你因为阅读文件时遇到问题而在这里结束,那么以二进制模式打开文件可能会有所帮助:`open(file_name,"rb")`然后从上面的注释中应用Ben的方法 (3认同)
  • 如何导入`unicode`? (2认同)
  • “unicode”是 Python 2 中的一种特定字符串类型。在 Python 3 中,所有常规字符串都是 Unicode 字符串,因此无需“导入”任何内容 - 只需使用“str”即可。也许另见http://nedbatchelder.com/text/unipain.html (2认同)

Doğ*_*ğuş 62

将引擎从C更改为Python对我来说是个窍门.

引擎是C:

pd.read_csv(gdp_path, sep='\t', engine='c')
Run Code Online (Sandbox Code Playgroud)

'utf-8'编解码器无法解码位置18中的字节0x92:无效的起始字节

引擎是Python:

pd.read_csv(gdp_path, sep='\t', engine='python')
Run Code Online (Sandbox Code Playgroud)

对我没有错误.

  • 这实际上是一个很好的解决方案。我不知道为什么它被否决了。 (2认同)
  • 这对我也有用...不确定“幕后”发生了什么,以及这是否在所有情况下实际上都是一个不错/良好/正确的解决方案,但它对我有用;) (2认同)

Jam*_*mac 55

现在我已经转移到Python 3,这种类型的问题突然出现了.我不知道Python 2只是简单地推动了文件编码的任何问题.

我找到了这个差异的很好的解释,以及如何找到解决方案,因为上述任何一个都没有.

http://python-notes.curiousefficiency.org/en/latest/python3/text_file_processing.html

简而言之,要使Python 3的行为与Python 2尽可能相似,请使用:

with open(filename, encoding="latin-1") as datafile:
    # work on datafile here
Run Code Online (Sandbox Code Playgroud)

但是,阅读文章,没有一个适合所有解决方案.


Ign*_*ams 28

>>> '\x9c'.decode('cp1252')
u'\u0153'
>>> print '\x9c'.decode('cp1252')
œ
Run Code Online (Sandbox Code Playgroud)

  • 我很困惑,你是怎么选择cp1252的?它对我有用,但为什么呢?我不知道,现在我迷路了:/.你能详细说说吗?非常感谢 !:) (16认同)
  • "Guess the encoding roulette"没有更通用的解决方案 (12认同)
  • 发现它使用网络搜索,运气和直觉的组合:[cp1252](https://en.wikipedia.org/wiki/Windows-1252)默认用于Microsoft Windows的遗留组件中的英语和其他一些西方语言` (5认同)
  • 你能提出一个适用于所有角色的选项吗?有没有办法检测需要解码的字符,以便可以实现更通用的代码?我看到很多人都在看这个,我打赌一些丢弃不是像我这样的理想选择. (4认同)

mai*_*ter 19

我有同样的问题,UnicodeDecodeError我用这条线解决了它.不知道是否是最好的方式,但它对我有用.

str = str.decode('unicode_escape').encode('utf-8')
Run Code Online (Sandbox Code Playgroud)


小智 9

此解决方案在使用拉丁美洲口音(例如“ñ”)时效果很好。

我只是通过添加解决了这个问题

df = pd.read_csv(fileName,encoding='latin1')
Run Code Online (Sandbox Code Playgroud)


Iva*_*Lee 7

首先,使用get_encoding_type来获取编码的文件类型:

import os    
from chardet import detect

# get file encoding type
def get_encoding_type(file):
    with open(file, 'rb') as f:
        rawdata = f.read()
    return detect(rawdata)['encoding']
Run Code Online (Sandbox Code Playgroud)

第二,打开以下类型的文件:

open(current_file, 'r', encoding = get_encoding_type, errors='ignore')
Run Code Online (Sandbox Code Playgroud)

  • 当它返回 None 时会发生什么 (4认同)

Sat*_*hia 6

我已经使用此代码解决了这个问题

df = pd.read_csv(path, engine='python')
Run Code Online (Sandbox Code Playgroud)