'utf-8'编解码器无法解码位置4276中的字节0xa0:无效的起始字节

Vit*_*tal 11 python csv encoding utf-8

我尝试阅读并打印以下文件:txt.tsv(https://www.sec.gov/files/dera/data/financial-statement-and-notes-data-sets/2017q3_notes.zip)

根据SEC,数据集以单一编码提供,如下所示:

制表符分隔值(.txt):utf-8,制表符分隔,\n-终止行,第一行包含小写字段名称.

我目前的代码:

import csv

with open('txt.tsv') as tsvfile:
    reader = csv.DictReader(tsvfile, dialect='excel-tab')
    for row in reader:
        print(row)
Run Code Online (Sandbox Code Playgroud)

所有尝试都以以下错误消息结束:

'utf-8'编解码器无法解码位置4276中的字节0xa0:无效的起始字节

我有点迷茫.谁能帮我?提前谢谢了.

koP*_*tok 17

文件中的编码是'windows-1252'.使用:

open('txt.tsv', encoding='windows-1252')
Run Code Online (Sandbox Code Playgroud)

  • 这有可能产生无效结果.CP-1252很乐意解码*任何*(音频数据,核心转储,zip存档)并伪装成所有有效文本. (2认同)