在Pandas read_csv期间标记数据时出错.如何真正看到坏线?

ℕʘʘ*_*ḆḽḘ 8 python csv pandas

我有一个大的csv,我加载如下

df=pd.read_csv('my_data.tsv',sep='\t',header=0, skiprows=[1,2,3])
Run Code Online (Sandbox Code Playgroud)

我在加载过程中遇到了几个错误.

  1. 首先,如果我没有指明warn_bad_lines=True,error_bad_lines=False我得到:

    标记数据时出错.C错误:预计在329867行的22个字段中,看到24个

  2. 其次,如果我使用上面的选项,我现在得到:

    CParserError:标记数据时出错.C错误:字符串中的EOF从第32357585行开始

问题是:我怎样才能看看这些不好的线条来理解发生了什么?是否有可能read_csv归还这些虚假的线?

我尝试了以下提示(当读取多个csv文件到HDF5时,Pandas ParserError EOF字符):

from pandas import parser

try:
  df=pd.read_csv('mydata.tsv',sep='\t',header=0, skiprows=[1,2,3])
except (parser.CParserError) as detail:
  print  detail
Run Code Online (Sandbox Code Playgroud)

但仍然得到

标记数据时出错.C错误:预计在329867行的22个字段中,看到24个

小智 0

就我而言,添加分隔符有帮助:

data = pd.read_csv('/Users/myfile.csv', encoding='cp1251', sep=';')
Run Code Online (Sandbox Code Playgroud)