Din*_*ius 15 python numpy pandas
df =
Col1 Col2 Col3
1 nan 4
2 5 4
3 3 nan
Run Code Online (Sandbox Code Playgroud)
给定数据帧df,我想获得一个df2不包含nan在列中的新数据帧Col2.这是预期的结果:df2 =
Col1 Col2 Col3
2 5 4
3 3 nan
Run Code Online (Sandbox Code Playgroud)
我知道,这是可能的使用pandas.isnull和dropna,但如何只指定特定的列到过滤应适用?
Max*_*axU 27
你可以使用DataFrame.dropna()方法:
In [202]: df.dropna(subset=['Col2'])
Out[202]:
Col1 Col2 Col3
1 2 5.0 4.0
2 3 3.0 NaN
Run Code Online (Sandbox Code Playgroud)
或者(在这种情况下)较少惯用的Series.notnull():
In [204]: df.loc[df.Col2.notnull()]
Out[204]:
Col1 Col2 Col3
1 2 5.0 4.0
2 3 3.0 NaN
Run Code Online (Sandbox Code Playgroud)
或使用DataFrame.query()方法:
In [205]: df.query("Col2 == Col2")
Out[205]:
Col1 Col2 Col3
1 2 5.0 4.0
2 3 3.0 NaN
Run Code Online (Sandbox Code Playgroud)
numexpr 解:
In [241]: import numexpr as ne
In [242]: col = df.Col2
In [243]: df[ne.evaluate("col == col")]
Out[243]:
Col1 Col2 Col3
1 2 5.0 4.0
2 3 3.0 NaN
Run Code Online (Sandbox Code Playgroud)
用途dropna:
df = df.dropna(subset=['Col2'])
print (df)
Col1 Col2 Col3
1 2 5.0 4.0
2 3 3.0 NaN
Run Code Online (Sandbox Code Playgroud)
另一个解决方案 - boolean indexing用notnull:
df = df[df['Col2'].notnull()]
print (df)
Col1 Col2 Col3
1 2 5.0 4.0
2 3 3.0 NaN
Run Code Online (Sandbox Code Playgroud)
同样如下:
df = df[~df['Col2'].isnull()]
print (df)
Col1 Col2 Col3
1 2 5.0 4.0
2 3 3.0 NaN
Run Code Online (Sandbox Code Playgroud)
使用numpy'sisnan来屏蔽和构造一个新的数据框
m = ~np.isnan(df.Col2.values)
pd.DataFrame(df.values[m], df.index[m], df.columns)
Col1 Col2 Col3
1 2.0 5.0 4.0
2 3.0 3.0 NaN
Run Code Online (Sandbox Code Playgroud)
定时
大数据
np.random.seed([3,1415])
df = pd.DataFrame(np.random.choice([np.nan, 1], size=(10000, 10))).add_prefix('Col')
%%timeit
m = ~np.isnan(df.Col2.values)
pd.DataFrame(df.values[m], df.index[m], df.columns)
1000 loops, best of 3: 326 µs per loop
%timeit df.query("Col2 == Col2")
1000 loops, best of 3: 1.48 ms per loop
%timeit df.loc[df.Col2.notnull()]
1000 loops, best of 3: 417 µs per loop
%timeit df[~df['Col2'].isnull()]
1000 loops, best of 3: 385 µs per loop
%timeit df.dropna(subset=['Col2'])
1000 loops, best of 3: 913 µs per loop
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
19125 次 |
| 最近记录: |