小编sna*_*815的帖子

Pandas读取问题,0xff在0位

我使用Windows命令行程序(samtools.exe)生成了一个巨大的(6G)txt文件:

.\samtools.exe mpileup -O bamfile.bam > txtfile.tsv

生成的文件实际上是由制表符分隔的表.当我尝试使用pandas.read_table打开它时,它给了我:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

当我试图打印文件的第一行时,它是这样的:
ÿþAL645882 473 N 1 ^!c I 1
除了第一个字符外,一切正常.如果我读它使用'rb',确实第一个字符是0xff.

我真的希望这个表被读作一个pandas DataFrame,文件很大,反正我还能让python忽略这个0xff字节吗?或者只是删除文件中的字节?

提前致谢!

python pandas python-unicode

3
推荐指数
1
解决办法
2225
查看次数

标签 统计

pandas ×1

python ×1

python-unicode ×1