熊猫:用groupby重新采样时间序列

Ash*_*shB 40 python group-by time-series pandas

鉴于以下pandas DataFrame:

In [115]: times = pd.to_datetime(pd.Series(['2014-08-25 21:00:00','2014-08-25 21:04:00',
                                            '2014-08-25 22:07:00','2014-08-25 22:09:00']))
          locations = ['HK', 'LDN', 'LDN', 'LDN']
          event = ['foo', 'bar', 'baz', 'qux']
          df = pd.DataFrame({'Location': locations,
                             'Event': event}, index=times)
          df
Out[115]:
                               Event Location
          2014-08-25 21:00:00  foo   HK
          2014-08-25 21:04:00  bar   LDN
          2014-08-25 22:07:00  baz   LDN
          2014-08-25 22:09:00  qux   LDN
Run Code Online (Sandbox Code Playgroud)

我想重新采样数据按小时按计数聚合,同时按位置分组以生成如下所示的数据框:

Out[115]:
                               HK    LDN
          2014-08-25 21:00:00  1     1
          2014-08-25 22:00:00  0     2
Run Code Online (Sandbox Code Playgroud)

我尝试了resample()和groupby()的各种组合,但没有运气.我该怎么做?

unu*_*tbu 50

在我的原帖中,我建议使用pd.TimeGrouper.如今,用pd.Grouper而不是pd.TimeGrouper.语法在很大程度上是相同的,但TimeGrouper 现在已不支持pd.Grouper.

此外,虽然pd.TimeGrouper只能按DatetimeIndex pd.Grouper进行分组,但可以按日期时间进行分组,您可以通过key参数指定.


您可以使用a pd.Grouper按小时对DatetimeIndex的DataFrame进行分组:

grouper = df.groupby([pd.Grouper(freq='1H'), 'Location'])
Run Code Online (Sandbox Code Playgroud)

用于count计算每个组中的事件数:

grouper['Event'].count()
#                      Location
# 2014-08-25 21:00:00  HK          1
#                      LDN         1
# 2014-08-25 22:00:00  LDN         2
# Name: Event, dtype: int64
Run Code Online (Sandbox Code Playgroud)

用于unstackLocation索引级别移动到列级别:

grouper['Event'].count().unstack()
# Out[49]: 
# Location             HK  LDN
# 2014-08-25 21:00:00   1    1
# 2014-08-25 22:00:00 NaN    2
Run Code Online (Sandbox Code Playgroud)

然后用于fillna将NaN更改为零.


把它们放在一起,

grouper = df.groupby([pd.Grouper(freq='1H'), 'Location'])
result = grouper['Event'].count().unstack('Location').fillna(0)
Run Code Online (Sandbox Code Playgroud)

产量

Location             HK  LDN
2014-08-25 21:00:00   1    1
2014-08-25 22:00:00   0    2
Run Code Online (Sandbox Code Playgroud)


Ted*_*rou 34

Pandas 0.21回答:TimeGrouper被弃用了

这样做有两种选择.他们实际上可以根据您的数据给出不同的结果.第一个选项按位置分组,按位置分组按小时分组.第二个选项按位置和小时同时分组.

选项1:使用groupby + resample

grouped = df.groupby('Location').resample('H')['Event'].count()
Run Code Online (Sandbox Code Playgroud)

选项2:将location和DatetimeIndex组合在一起groupby(pd.Grouper)

grouped = df.groupby(['Location', pd.Grouper(freq='H')])['Event'].count()
Run Code Online (Sandbox Code Playgroud)

它们都会产生以下结果:

Location                     
HK        2014-08-25 21:00:00    1
LDN       2014-08-25 21:00:00    1
          2014-08-25 22:00:00    2
Name: Event, dtype: int64
Run Code Online (Sandbox Code Playgroud)

然后重塑:

grouped.unstack('Location', fill_value=0)
Run Code Online (Sandbox Code Playgroud)

会输出

Location             HK  LDN
2014-08-25 21:00:00   1    1
2014-08-25 22:00:00   0    2
Run Code Online (Sandbox Code Playgroud)


Lit*_*les 9

多列组

unubu与他的答案一致,但我想补充一下,如果你有第三列你可以做什么,说Cost并想像上面那样聚合它.它是通过结合unutbu的答案,这一次,我发现了如何做到这一点,我想我会分享对未来的用户.

使用Cost列创建DataFrame :

In[1]:
import pandas as pd
import numpy as np
times = pd.to_datetime([
    "2014-08-25 21:00:00", "2014-08-25 21:04:00",
    "2014-08-25 22:07:00", "2014-08-25 22:09:00"
])
df = pd.DataFrame({
    "Location": ["HK", "LDN", "LDN", "LDN"],
    "Event":    ["foo", "bar", "baz", "qux"],
    "Cost":     [20, 24, 34, 52]
}, index = times)
df

Out[1]:
                     Location  Event  Cost
2014-08-25 21:00:00        HK    foo    20
2014-08-25 21:04:00       LDN    bar    24
2014-08-25 22:07:00       LDN    baz    34
2014-08-25 22:09:00       LDN    qux    52
Run Code Online (Sandbox Code Playgroud)

现在我们通过使用agg函数来指定每个列的聚合方法,例如count,mean,sum等.

In[2]:
grp = df.groupby([pd.Grouper(freq = "1H"), "Location"]) \
      .agg({"Event": np.size, "Cost": np.mean})
grp

Out[2]:
                               Event  Cost
                     Location
2014-08-25 21:00:00  HK            1    20
                     LDN           1    24
2014-08-25 22:00:00  LDN           2    43
Run Code Online (Sandbox Code Playgroud)

然后决赛unstackNaN零填充并显示,int因为它很好.

In[3]: 
grp.unstack().fillna(0).astype(int)

Out[3]:
                    Event     Cost
Location               HK LDN   HK LDN
2014-08-25 21:00:00     1   1   20  24
2014-08-25 22:00:00     0   2    0  43
Run Code Online (Sandbox Code Playgroud)


Áng*_*gel 7

如果你想保留所有列

df = (df.groupby("Location")
      .resample("H", on="date")
      .last()
      .reset_index(drop=True))

Run Code Online (Sandbox Code Playgroud)