pri*_*mo7 4 python pandas pandas-groupby
我正在尝试按连续日期对ID进行分组.
ID Date
abc 2017-01-07
abc 2017-01-08
abc 2017-01-09
abc 2017-12-09
xyz 2017-01-05
xyz 2017-01-06
xyz 2017-04-15
xyz 2017-04-16
Run Code Online (Sandbox Code Playgroud)
需要退货:
ID Count
abc 3
abc 1
xyz 2
xyz 2
Run Code Online (Sandbox Code Playgroud)
我试过了:
d = {'ID': ['abc', 'abc', 'abc', 'abc', 'xyz', 'xyz', 'xyz', 'xyz'], 'Date': ['2017-01-07','2017-01-08', '2017-01-09', '2017-12-09', '2017-01-05', '2017-01-06', '2017-04-15', '2017-04-16']}
df = pd.DataFrame(data=d)
df['Date'] = pd.to_datetime(df['Date'])
today = pd.to_datetime('2018-10-23')
x = df.sort_values('Date', ascending=0)
g = x.groupby(['ID'])
x[(today - x['Date']).dt.days == g.cumcount()].groupby(['ID']).size()
Run Code Online (Sandbox Code Playgroud)
是否有一种简单的方法可以通过ID获取所有日期范围的计数?
创建一个Series检查每个ID中日期之间差异的方法.检查是否不是1天,然后ID按该系列的累计总和进行分组.
import pandas as pd
s = df.groupby('ID').Date.diff().dt.days.fillna(1).ne(1).cumsum()
df.groupby(['ID', s]).size().reset_index(level=1, drop=True)
Run Code Online (Sandbox Code Playgroud)
ID
abc 3
abc 1
xyz 2
xyz 2
dtype: int64
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
661 次 |
| 最近记录: |