doo*_*ooz 5 python csv python-3.x pandas
我正在尝试将CSV文件的片段读入pandas DataFrame,当我将nrows设置为超过某个点时,我遇到了麻烦.我的CSV文件被拆分为具有不同标题/数据类型的不同段,因此我浏览了该文件并找到了不同段的行号,并保存了行号.当我尝试做的时候:
pd.io.parsers.read_csv('filename',skiprows=40, nrows=12646)
Run Code Online (Sandbox Code Playgroud)
它工作正常.更多行,它会抛出一个错误:
CParserError: Error tokenizing data. C error: Expected 56 fields in line 13897, saw 71
Run Code Online (Sandbox Code Playgroud)
确实,13897行有那么多行,这就是我试图使用nrows和skiprows的原因.我可以找到pandas将读取的最后一行,它与其余部分看起来没什么不同.在十六进制编辑器中查看文件,我仍然没有看到任何区别.
我也尝试过另一个CSV文件,我得到了类似的结果:
pd.io.parsers.read_csv('file2',skiprows=112, nrows=18524)
<class 'pandas.core.frame.DataFrame'>
Int64Index: 18188 entries, 0 to 18187
Run Code Online (Sandbox Code Playgroud)
但:
pd.io.parsers.read_csv('file2',skiprows=112, nrows=18525)
Run Code Online (Sandbox Code Playgroud)
得到:
CParserError: Error tokenizing data. C error: Expected 56 fields in line 19190, saw 71
Run Code Online (Sandbox Code Playgroud)
有什么我想念的吗?还有另一种方法吗?
我使用的是:pandas-0.10.1.win-amd64-py3.3,numpy-MKL-1.7.1rc1.win-amd64-py3.3,和python-3.3.0.amd64在Windows上.我得到同样的问题numpy-unoptimized-1.7.1rc1.win-amd64-py3.3.
您可以使用warn_bad_lines和error_bad_lines来关闭坏线错误和警告:
import pandas as pd
from StringIO import StringIO
data = StringIO("""a,b,c
1,2,3
4,5,6
6,7,8,9
1,2,5
3,4,5""")
pd.read_csv(data, warn_bad_lines=False, error_bad_lines=False)
Run Code Online (Sandbox Code Playgroud)