在Pandas数据框中用NaT替换日期

use*_*975 7 dataframe pandas

我有一个带有datetime64类型列的数据框.在这一列中有几行日期为1999-09-09 23:59:59,因为它们实际上应该表示为缺少日期NaT.有人刚决定使用这个特定日期来表示缺失的数据.现在我希望将这些日期替换为NaT(Pandas的缺失日期类型).

此外,如果我使用NaTs对此列执行操作,例如

df['date'] - df['column with missing date']
Run Code Online (Sandbox Code Playgroud)

Pandas是否忽略了缺少的日期并为这些行维护NaT,或者它会在Java中抛出一些错误,例如Null指针异常.

EdC*_*ica 8

In [6]:
import pandas as pd
df = pd.DataFrame({'date':[pd.datetime(1999,9,9,23,59,59), pd.datetime(2014,1,1)]* 10})
df
Out[6]:
                  date
0  1999-09-09 23:59:59
1  2014-01-01 00:00:00
2  1999-09-09 23:59:59
3  2014-01-01 00:00:00
4  1999-09-09 23:59:59
5  2014-01-01 00:00:00
6  1999-09-09 23:59:59
7  2014-01-01 00:00:00
8  1999-09-09 23:59:59
9  2014-01-01 00:00:00
10 1999-09-09 23:59:59
11 2014-01-01 00:00:00
12 1999-09-09 23:59:59
13 2014-01-01 00:00:00
14 1999-09-09 23:59:59
15 2014-01-01 00:00:00
16 1999-09-09 23:59:59
17 2014-01-01 00:00:00
18 1999-09-09 23:59:59
19 2014-01-01 00:00:00
In [9]:

import numpy as np
df.loc[df['date'] == '1999-09-09 23:59:59 ', 'date'] = pd.NaT
df
Out[9]:
         date
0         NaT
1  2014-01-01
2         NaT
3  2014-01-01
4         NaT
5  2014-01-01
6         NaT
7  2014-01-01
8         NaT
9  2014-01-01
10        NaT
11 2014-01-01
12        NaT
13 2014-01-01
14        NaT
15 2014-01-01
16        NaT
17 2014-01-01
18        NaT
19 2014-01-01
Run Code Online (Sandbox Code Playgroud)

要回答你的第二个问题,大多数pandas函数会正确处理NaN,你可以随时删除它们:

In [10]:

df.dropna()
Out[10]:
         date
1  2014-01-01
3  2014-01-01
5  2014-01-01
7  2014-01-01
9  2014-01-01
11 2014-01-01
13 2014-01-01
15 2014-01-01
17 2014-01-01
19 2014-01-01
Run Code Online (Sandbox Code Playgroud)

并在这些行上执行操作