我正在尝试学习如何选择超过一定数量的缺失数据的行或列.使用value_counts,我可以找到满足条件的列,但我无法弄清楚如何以int形式检索索引,以便我可以访问并从数据框中删除相应的列.
如何在int中转换/检索索引?并且,有更简单/更简单的方法吗?
df3 = pandas.DataFrame([[1,6.5,3],[1,'NA','NA'],[3,'NA','NA'],['NA',6.5,'NA']])
df3_value_counts = df3.apply(pandas.value_counts).fillna(0).ix['NA']
df3_missing_data_index = df3_value_counts[df3_value_counts > 2].index
Run Code Online (Sandbox Code Playgroud)
首先,你使用代表的东西要好得多 NaN
df3 = df3.replace('NA', np.nan).astype(float)
Run Code Online (Sandbox Code Playgroud)
然后,您可以使用内置方法来执行您想要的操作
df3.dropna(axis=1, thresh=2)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
222 次 |
| 最近记录: |