min*_*hau 5 python time-series dataframe pandas
基于此处的pandas文档:Docs
和例子:
>>> index = pd.date_range('1/1/2000', periods=9, freq='T')
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00 0
2000-01-01 00:01:00 1
2000-01-01 00:02:00 2
2000-01-01 00:03:00 3
2000-01-01 00:04:00 4
2000-01-01 00:05:00 5
2000-01-01 00:06:00 6
2000-01-01 00:07:00 7
2000-01-01 00:08:00 8
Freq: T, dtype: int64
Run Code Online (Sandbox Code Playgroud)
重新取样后:
>>> series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00 0
2000-01-01 00:03:00 6
2000-01-01 00:06:00 15
2000-01-01 00:09:00 15
Run Code Online (Sandbox Code Playgroud)
在我的想法中,重新取样后的垃圾箱看起来应该是这样的:
=========bin 01=========
2000-01-01 00:00:00 0
2000-01-01 00:01:00 1
2000-01-01 00:02:00 2
=========bin 02=========
2000-01-01 00:03:00 3
2000-01-01 00:04:00 4
2000-01-01 00:05:00 5
=========bin 03=========
2000-01-01 00:06:00 6
2000-01-01 00:07:00 7
2000-01-01 00:08:00 8
Run Code Online (Sandbox Code Playgroud)
我是对的吗?
所以在.sum我认为它应该是这样的:
2000-01-01 00:02:00 3
2000-01-01 00:05:00 12
2000-01-01 00:08:00 21
Run Code Online (Sandbox Code Playgroud)
我只是不明白它是怎么出来的:
2000-01-01 00:00:00 0
(因为label='right',在这种情况下,2000-01-01 00:00:00不能是任何箱子的任何右边缘).
2000-01-01 00:09:00 15
(标签2000-01-01 00:09:00甚至在原系列中也不存在.
简短的答案: 如果您使用closed='left',loffset='2T'那么您将获得期望的结果:
series.resample('3T', label='left', closed='left', loffset='2T').sum()
2000-01-01 00:02:00 3
2000-01-01 00:05:00 12
2000-01-01 00:08:00 21
Run Code Online (Sandbox Code Playgroud)
长答案:(或者给定您使用的参数,为什么您得到的结果是正确的)从文档中可能不清楚,但是在此设置中打开和关闭是关于严格不严格不平等(例如<vs <=)的问题。
一个例子应该使这一点变得清楚。使用示例中的内部间隔,这与更改以下值的区别closed:
closed='right' => ( 3:00, 6:00 ] or 3:00 < x <= 6:00
closed='left' => [ 3:00, 6:00 ) or 3:00 <= x < 6:00
Run Code Online (Sandbox Code Playgroud)
您可以在此处的许多地方找到间隔符号的说明(括号或括号),例如:https : //en.wikipedia.org/wiki/Interval_(mathematics)
该label参数仅控制显示左侧(3:00)还是右侧(6:00),但不影响结果本身。
还要注意,您可以使用loffset参数(应将其输入为时间增量)更改间隔的起点。
回到例如,当我们从只改变标签“右”到“左”:
series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00 0
2000-01-01 00:03:00 6
2000-01-01 00:06:00 15
2000-01-01 00:09:00 15
series.resample('3T', label='left', closed='right').sum()
1999-12-31 23:57:00 0
2000-01-01 00:00:00 6
2000-01-01 00:03:00 15
2000-01-01 00:06:00 15
Run Code Online (Sandbox Code Playgroud)
正如你所看到的,结果是一样的,只是其中的索引标识的变化。大熊猫仅可以显示在左边或右边的标签,但如果它表现出两个,那么它看起来像这样(在下面,我用标准的索引符号,其中(左侧手段打开和]右侧被封闭):
( 1999-12-31 23:57:00, 2000-01-01 00:00:00 ] 0 # = 0
( 2000-01-01 00:00:00, 2000-01-01 00:03:00 ] 6 # = 1+2+3
( 2000-01-01 00:03:00, 2000-01-01 00:06:00 ] 15 # = 4+5+6
( 2000-01-01 00:06:00, 2000-01-01 00:09:00 ] 15 # = 7+8
Run Code Online (Sandbox Code Playgroud)
请注意,第一个bin(23:57:00,00:00:00]不为空,只是它包含一行并且该行中的值为零。如果将“ sum”更改为“ count”这变得更加明显:
series.resample('3T', label='left', closed='right').count()
1999-12-31 23:57:00 1
2000-01-01 00:00:00 3
2000-01-01 00:03:00 3
2000-01-01 00:06:00 2
Run Code Online (Sandbox Code Playgroud)