Jos*_* Ho 5 csv unicode load pandas python-unicode
我正在尝试使用csv文件,pd.read_csv但是我得到以下unicode错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte
Run Code Online (Sandbox Code Playgroud)
bob*_*nce 15
遗憾的是,CSV文件没有信号字符编码的内置方法.
read_csv默认猜测CSV文件中的字节表示以UTF-8编码编码的文本.这将导致UnicodeDecodeError该文件是否使用一些其他编码导致不正好是一个有效的UTF-8序列的字节.(如果幸运的话也确实是有效的UTF-8,你就不会得到错误,但你仍然会得到非ASCII字符的错误输入,这实际上会更糟.)
由你来指定正在使用的编码,这需要一些知识(或猜测)它来自何处.例如,如果它来自西方安装的Windows上的MS Excel,它可能是Windows代码页1252,您可以阅读它:
pd.read_csv('../filename.csv', encoding='cp1252')
Run Code Online (Sandbox Code Playgroud)