我有一个 excel 数据集,其中包含员工输入的工作时间的日期时间值。现在快年底了,他们想报告它,但它充满了错误的条目。因此我需要清理它。
以下是一些错误条目的示例。
面对此类数据集时,您的方法是什么?
我首先使用将日期列转换为日期时间 df['Shiftdatum'] = pd.to_datetime(df.Shiftdatum, format='%Y-%m-%d', errors='coerce')
在下面的示例数据中,它显示了一个 NaT
如何过滤掉这些 NaT,包括行的索引?
[Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
Timestamp('2019-03-11 00:00:00'),
NaT,
Timestamp('2019-03-12 00:00:00')
Run Code Online (Sandbox Code Playgroud)
初始样本数据:
{0: '2019-03-11 00:00:00',
1: '2019-03-11 00:00:00',
2: '2019-03-11 00:00:00',
3: '2019-03-11 00:00:00',
4: '2019-03-11 00:00:00',
5: '2019-03-11 00:00:00',
6: '2019-03-11 00:00:00',
7: '2019-03-11 00:00:00',
8: '2019-03-11 00:00:00',
9: '2019-03-11 …Run Code Online (Sandbox Code Playgroud)