我有一个大的csv,我加载如下
df=pd.read_csv('my_data.tsv',sep='\t',header=0, skiprows=[1,2,3])
Run Code Online (Sandbox Code Playgroud)
我在加载过程中遇到了几个错误.
首先,如果我没有指明warn_bad_lines=True,error_bad_lines=False我得到:
标记数据时出错.C错误:预计在329867行的22个字段中,看到24个
其次,如果我使用上面的选项,我现在得到:
CParserError:标记数据时出错.C错误:字符串中的EOF从第32357585行开始
问题是:我怎样才能看看这些不好的线条来理解发生了什么?是否有可能read_csv归还这些虚假的线?
我尝试了以下提示(当读取多个csv文件到HDF5时,Pandas ParserError EOF字符):
from pandas import parser
try:
df=pd.read_csv('mydata.tsv',sep='\t',header=0, skiprows=[1,2,3])
except (parser.CParserError) as detail:
print detail
Run Code Online (Sandbox Code Playgroud)
但仍然得到
标记数据时出错.C错误:预计在329867行的22个字段中,看到24个
小智 0
就我而言,添加分隔符有帮助:
data = pd.read_csv('/Users/myfile.csv', encoding='cp1251', sep=';')
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
8811 次 |
| 最近记录: |