UnicodeDecodeError：尝试读取文档时无效的连续字节

Question

UnicodeDecodeError：尝试读取文档时无效的连续字节

pin*_*hon 4 unicode decode file traceback

我试图读入包含产品数据的文档并打印出某些产品的数据。问题是，我似乎无法毫无错误地读取它。我只是想打印前 100 个字符来读取它，这样我就可以找出我需要打印的具体内容以及如何将其从文件中提取出来。但我一直在读它。文档是 UTF-8，或者应该是……我错过了什么？

这是我的代码：

products = open('products.csv')
productsread = products.read()
print(productsread[:100])

Run Code Online (Sandbox Code Playgroud)

这是我得到的回溯：

Traceback (most recent call last):
File "nilescratchpad.py", line 2, in <module>
productsread = products.read()
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/codecs.py", line 321, in decode (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 7451: invalid continuation byte

Run Code Online (Sandbox Code Playgroud)

Answer 1

Mar*_*nen 6

如果您阅读该文档并且它在使用 UTF-8 编解码器时抛出错误，则它不是 UTF-8，或者至少其中存在错误。open('products.csv',encoding='utf8',errors='replace')将使用 Unicode codepoint 替换所有错误U+FFFD REPLACEMENT CHARACTER，但请确保您的大部分文档实际上是UTF-8。

归档时间：	8 年，2 月前
查看次数：	4670 次
最近记录：	8 年，2 月前