我使用Windows命令行程序(samtools.exe)生成了一个巨大的(6G)txt文件:
.\samtools.exe mpileup -O bamfile.bam > txtfile.tsv
生成的文件实际上是由制表符分隔的表.当我尝试使用pandas.read_table打开它时,它给了我:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte
当我试图打印文件的第一行时,它是这样的:
ÿþAL645882 473 N 1 ^!c I 1
除了第一个字符外,一切正常.如果我读它使用'rb',确实第一个字符是0xff.
我真的希望这个表被读作一个pandas DataFrame,文件很大,反正我还能让python忽略这个0xff字节吗?或者只是删除文件中的字节?
提前致谢!