这真的很奇怪.我已经尝试了几种方法从pandas数据帧中删除丢失数据的行,但它们似乎都没有工作.这是代码(我只是取消注释使用的方法之一 - 但这些是我在不同的修改中使用的三个 - 这是最新的):
import pandas as pd
Test = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,'NaN',4,5],'C':[1,2,3,'NaT',5]})
print(Test)
#Test = Test.ix[Test.C.notnull()]
#Test = Test.dropna()
Test = Test[~Test[Test.columns.values].isnull()]
print "And now"
print(Test)
Run Code Online (Sandbox Code Playgroud)
但在所有情况下,我得到的只是:
A B C
0 1 1 1
1 2 2 2
2 3 NaN 3
3 4 4 NaT
4 5 5 5
And now
A B C
0 1 1 1
1 2 2 2
2 3 NaN 3
3 4 4 NaT
4 5 5 5
Run Code Online (Sandbox Code Playgroud)
我有什么错误吗?或者问题是什么?理想情况下,我想得到这个:
A B C
0 1 1 1
1 2 2 2
4 5 5 5
Run Code Online (Sandbox Code Playgroud)
Jon*_*nts 14
您的示例DF具有NaN和NaT作为字符串.dropna,.notnull以及和.不会考虑假,所以根据你的例子,你可以使用......
df[~df.isin(['NaN', 'NaT']).any(axis=1)]
Run Code Online (Sandbox Code Playgroud)
哪个给你:
A B C
0 1 1 1
1 2 2 2
4 5 5 5
Run Code Online (Sandbox Code Playgroud)
如果你有DF这样的(注意使用np.nan和np.datetime64('NaT')代替字符串:
df = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,np.nan,4,5],'C':[1,2,3,np.datetime64('NaT'),5]})
Run Code Online (Sandbox Code Playgroud)
然后运行df.dropna()给你:
A B C
0 1 1.0 1
1 2 2.0 2
4 5 5.0 5
Run Code Online (Sandbox Code Playgroud)
请注意,列B现在是float一个整数,而不是存储NaN值所需的整数.
Mer*_*lin 11
在orig数据上试试这个:
Test.replace(["NaN", 'NaT'], np.nan, inplace = True)
Test = Test.dropna()
Test
Run Code Online (Sandbox Code Playgroud)
或修改数据并执行此操作
import pandas as pd
import numpy as np
Test = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,np.nan,4,5],'C':[1,2,3,pd.NaT,5]})
print(Test)
Test = Test.dropna()
print(Test)
A B C
0 1 1.0 1
1 2 2.0 2
4 5 5.0 5
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
19096 次 |
| 最近记录: |