使用Pandas读取空格分隔的数据

Ten*_*gis 13 python pandas

我以前读过我的数据numpy.loadtxt().然而,最近我在SO中发现,这pandas.read_csv()要快得多.

要阅读这些数据我使用:

pd.read_csv(filename, sep=' ',header=None)
Run Code Online (Sandbox Code Playgroud)

我现在遇到的问题是,在我的情况下,分隔符可以从一个空格,x空格到甚至一个标签不同.

这里我的数据如何:

56.00     101.85 52.40 101.85 56.000000 101.850000 1
56.00 100.74 50.60 100.74 56.000000 100.740000 2
56.00 100.74 52.10 100.74 56.000000 100.740000 3
56.00 102.96 52.40 102.96 56.000000 102.960000 4
56.00 100.74 55.40 100.74 56.000000 100.740000 5
Run Code Online (Sandbox Code Playgroud)

这导致了如下结果:

     0       1     2       3     4       5   6       7   8
0   56     NaN   NaN  101.85  52.4  101.85  56  101.85   1
1   56  100.74  50.6  100.74  56.0  100.74   2     NaN NaN
2   56  100.74  52.1  100.74  56.0  100.74   3     NaN NaN
3   56  102.96  52.4  102.96  56.0  102.96   4     NaN NaN
4   56  100.74  55.4  100.74  56.0  100.74   5     NaN NaN
Run Code Online (Sandbox Code Playgroud)

我必须指定我的数据> 100 MB.所以我不能预处理数据或先清理它们.任何想法如何解决这个问题?

EdC*_*ica 22

你原来的路线:

pd.read_csv(filename, sep=' ',header=None)
Run Code Online (Sandbox Code Playgroud)

将分隔符指定为单个空格,因为您的csvs可以有空格或制表符,您可以将正则表达式传递给sep参数,如下所示:

pd.read_csv(filename, sep='\s+',header=None)
Run Code Online (Sandbox Code Playgroud)

这将分隔符定义为一个或多个单个空格,有一个方便的备忘单列出了正则表达式.