Pandas：将日期列剪切为期间日期组/数据箱

Question

Pandas：将日期列剪切为期间日期组/数据箱

Xav*_*orL 4 datetime pandas pandas-groupby pandas-timeindex

我有一个数据框如下：

df = pd.DataFrame({'Id': ['abs1', 'abs2', 'abs3', 'plo2', '201805', '201806', '202011', 'pctx1'],
                   'Date': ['2021-06-15', '2021-06-13', '2021-06-07', '2021-05-30',
                            '2021-05-12', '2021-04-28', '2021-04-15', '2021-02-01']})

Run Code Online (Sandbox Code Playgroud)

我希望将日期列分成几个组，在一个新列中，称为Date_Bin，规则是：从今天的日期开始，如果日期中的值小于7天，那么新列中的值将是“最后7天”天”，如果该值距离今天小于 14 天且大于 7 天，则值为“7 到 14 天”，如果该值小于 30 天且大于 14 天，则值为“14 到 14 天” 30天，30到60天，60到90天，90天以上都是同样的逻辑。理想的输出是这样的：

       Id        Date           Date_Bin
0    abs1  2021-06-15        last 7 days
1    abs2  2021-06-13        last 7 days
2    abs3  2021-06-07       7 to 14 days
3    plo2  2021-05-30      14 to 30 days
4  201805  2021-05-10      30 to 60 days
5  201806  2021-04-28      30 to 60 days
6  202011  2021-04-15      60 to 90 days
7   pctx1  2021-02-01  more than 90 days

Run Code Online (Sandbox Code Playgroud)

正如您所看到的输出，这些是我需要的数据的唯一组/箱。我尝试了几种方法但没有成功，如果有人能提供帮助，我将不胜感激。

Answer 1

ALo*_*llz 5

转换您的日期，to_datetime然后从今天的normalized日期中减去（以便我们删除时间部分）并获取天数。然后使用pd.cut对它们进行适当的分组。

未来的任何事情都会被标记为NaN。

import pandas as pd
import numpy as np

df['Date'] = pd.to_datetime(df['Date'])
s =  (pd.to_datetime('today').normalize() - df['Date']).dt.days

df['Date_Bin'] = pd.cut(s, [0, 7, 14, 30, 60, 90, np.inf],
                        labels=['last 7 days', '7 to 14 days', '14 to 30 days',
                                '30 to 60 days', '60 to 90 days', 'more than 90 days'],
                        include_lowest=True)

Run Code Online (Sandbox Code Playgroud)

print(df)

       Id       Date           Date_Bin
0    abs1 2021-06-15        last 7 days
1    abs2 2021-06-13        last 7 days
2    abs3 2021-06-07       7 to 14 days
3    plo2 2021-05-30      14 to 30 days
4  201805 2021-05-12      30 to 60 days
5  201806 2021-04-28      30 to 60 days
6  202011 2021-04-15      60 to 90 days
7   pctx1 2021-02-01  more than 90 days

Run Code Online (Sandbox Code Playgroud)

为了将来的可重复性，在撰写本文时：

pd.to_datetime('today').normalize()
#Timestamp('2021-06-15 00:00:00')

Run Code Online (Sandbox Code Playgroud)

非常感谢@ALollz，太棒了，我也从你那里学到了这一点，非常感谢。 (2认同)

归档时间：	4 年，7 月前
查看次数：	1835 次
最近记录：	4 年，7 月前