Mar*_*rkD 3 django aggregation dataframe pandas pandas-groupby
我有一个 pandas DataFrame,它来自从数据库中提取的一长串日期时间范围,每个范围都有一个标签。日期的排序使得一行的开始日期是前一行的结束日期。一个可行的例子在这里:
import pandas as pd
bins = [{'start': '2020-01-12 00:00:00', 'end': '2020-01-13 00:00:00', 'label': 't3'},
{'start': '2020-01-13 00:00:00', 'end': '2020-01-13 07:00:00', 'label': 't2'},
{'start': '2020-01-13 07:00:00', 'end': '2020-01-13 15:30:00', 'label': 't1'},
{'start': '2020-01-13 15:30:00', 'end': '2020-01-14 00:00:00', 'label': 't2'},
{'start': '2020-01-14 00:00:00', 'end': '2020-01-14 07:00:00', 'label': 't2'},
{'start': '2020-01-14 07:00:00', 'end': '2020-01-14 15:30:00', 'label': 't1'},
{'start': '2020-01-14 15:30:00', 'end': '2020-01-15 00:00:00', 'label': 't2'},
{'start': '2020-01-15 00:00:00', 'end': '2020-01-15 07:00:00', 'label': 't2'},
{'start': '2020-01-15 07:00:00', 'end': '2020-01-15 15:30:00', 'label': 't1'},
{'start': '2020-01-15 15:30:00', 'end': '2020-01-16 00:00:00', 'label': 't2'},
{'start': '2020-01-16 00:00:00', 'end': '2020-01-16 07:00:00', 'label': 't2'},
{'start': '2020-01-16 07:00:00', 'end': '2020-01-16 15:30:00', 'label': 't1'},
{'start': '2020-01-16 15:30:00', 'end': '2020-01-17 00:00:00', 'label': 't2'},
{'start': '2020-01-17 00:00:00', 'end': '2020-01-17 07:00:00', 'label': 't2'},
{'start': '2020-01-17 07:00:00', 'end': '2020-01-17 15:30:00', 'label': 't1'},
{'start': '2020-01-17 15:30:00', 'end': '2020-01-18 00:00:00', 'label': 't2'},
{'start': '2020-01-18 00:00:00', 'end': '2020-01-19 00:00:00', 'label': 't2'}]
bins_df = pd.DataFrame(bins)
Run Code Online (Sandbox Code Playgroud)
请注意,某些标签是连续重复的,例如,第 4 行和第 5 行具有相同的标签。因此,标签适用于从到 的't2'
范围。使用 pandas,如何对具有相同标签的连续行进行分组/聚合,并采用最小值和最大值来组合具有相同标签的连续日期范围?2020-01-13 15:30:00
2020-01-14 07:00:00
start
end
首先,我们使用Series.shift
withSeries.cumsum
为每个连续label
值创建一个组指示符。
然后我们使用groupby.agg
和min
。max
label_groups = bins_df['label'].ne(bins_df['label'].shift()).cumsum()
df = (
bins_df.groupby(label_groups).agg({'start':'min', 'end':'max', 'label':'first'})
.reset_index(drop=True)
)
Run Code Online (Sandbox Code Playgroud)
start end label
0 2020-01-12 00:00:00 2020-01-13 00:00:00 t3
1 2020-01-13 00:00:00 2020-01-13 07:00:00 t2
2 2020-01-13 07:00:00 2020-01-13 15:30:00 t1
3 2020-01-13 15:30:00 2020-01-14 07:00:00 t2
4 2020-01-14 07:00:00 2020-01-14 15:30:00 t1
5 2020-01-14 15:30:00 2020-01-15 07:00:00 t2
6 2020-01-15 07:00:00 2020-01-15 15:30:00 t1
7 2020-01-15 15:30:00 2020-01-16 07:00:00 t2
8 2020-01-16 07:00:00 2020-01-16 15:30:00 t1
9 2020-01-16 15:30:00 2020-01-17 07:00:00 t2
10 2020-01-17 07:00:00 2020-01-17 15:30:00 t1
11 2020-01-17 15:30:00 2020-01-19 00:00:00 t2
Run Code Online (Sandbox Code Playgroud)