Uis*_*234 5 python numpy pandas
我想在图表中的某个时间可视化作业车间中所需机器的数量,在x轴上是连续时间轴,在y轴上是移位数.
在下面的数据框中,您可以找到我的数据示例.在这里,您可以看到Shift_IDs(这是唯一的)以及该班次的开始和结束时间.在一天的时间里,我想知道在一定的时间间隔内需要多少台机器.这可以是5分钟,一刻钟,半小时和小时.
df:
Shift_ID Shift_Time_Start Shift_Time_End
0 1 2016-03-22 9:00:00 2016-03-22 9:35:00
1 2 2016-03-22 9:20:00 2016-03-22 10:20:00
2 3 2016-03-22 9:40:00 2016-03-22 10:14:00
3 4 2016-03-22 10:00:00 2016-03-22 10:31:00
Run Code Online (Sandbox Code Playgroud)
在本季度9:30-9:45的示例中,我需要3台机器才能在该特定时间完成每个班次.所需的输出看起来像这样:
df2:
Interval Count
0 2016-03-22 9:00:00 - 2016-03-22 9:15:00 1
1 2016-03-22 9:15:00 - 2016-03-22 9:30:00 2
2 2016-03-22 9:30:00 - 2016-03-22 9:45:00 3
3 2016-03-22 9:45:00 - 2016-03-22 10:00:00 2
4 2016-03-22 10:00:00 - 2016-03-22 10:15:00 2
5 2016-03-22 10:15:00 - 2016-03-22 10:30:00 2
6 2016-03-22 10:30:00 - 2016-03-22 10:45:00 1
Run Code Online (Sandbox Code Playgroud)
使用此数据框,我可以将其舍入到间隔的最低边界,然后将其绘制在图形中.
我被困在如何"看"换班是否位于多个区间内.你有什么想法解决这个问题吗?
注意:所有日期时间值当然是日期时间类型
在解决MaxU和knightofni后编辑
我用MaxU的代码绘制了你的代码.他们似乎都在15分钟内做得很好,但请用5分钟看看你的结果:
MaxU:
knightofni:
编辑2 4 4 2015年4月
这不太容易。我真的想不出一种完全矢量化的方法,但这里有两种可行的方法。
1- 重新组织数据,以便只有一个日期时间列。目标是对于每个shift_ID,每个最小间隔一行。然后你就可以使用 timegrouper groupby 了。
工作示例:
import pandas as pd
import arrow
data = {
'Shift_ID' : [1,2,3,4],
'Shift_Time_Start' : [arrow.get('2016-03-22 09:00:00').datetime,
arrow.get('2016-03-22 09:20:00').datetime,
arrow.get('2016-03-22 09:40:00').datetime,
arrow.get('2016-03-22 10:00:00').datetime
],
'Shift_Time_End' : [arrow.get('2016-03-22 09:35:00').datetime,
arrow.get('2016-03-22 10:20:00').datetime,
arrow.get('2016-03-22 10:14:00').datetime,
arrow.get('2016-03-22 10:31:00').datetime
],
}
df = pd.DataFrame(data)
min_int = '5T'
df
Shift_ID Shift_Time_End Shift_Time_Start
0 1 2016-03-22 09:35:00+00:00 2016-03-22 09:00:00+00:00
1 2 2016-03-22 10:20:00+00:00 2016-03-22 09:20:00+00:00
2 3 2016-03-22 10:14:00+00:00 2016-03-22 09:40:00+00:00
3 4 2016-03-22 10:31:00+00:00 2016-03-22 10:00:00+00:00
Run Code Online (Sandbox Code Playgroud)
new_data = {'time' : [], 'Shift_ID': []} # dict to hold the data
for row in df.iterrows():
# creates a list of all dates of this shift, from start to end
dates = pd.date_range(row[1].Shift_Time_Start, row[1].Shift_Time_End, freq=min_int)
for date in dates:
new_data['time'].append(date)
new_data['Shift_ID'].append(row[1].Shift_ID)
# creating the new df
newdf = pd.DataFrame(new_data).set_index('time')
newdf.head()
Shift_ID
time
2016-03-22 09:00:00+00:00 1
2016-03-22 09:05:00+00:00 1
2016-03-22 09:10:00+00:00 1
2016-03-22 09:15:00+00:00 1
2016-03-22 09:20:00+00:00 1
Run Code Online (Sandbox Code Playgroud)
# We groupby the time column, resampling every min_int
# (in our case 5 minutes, represented by '5T'),
# then we check how many uniquer shift_id.
newdf.groupby(pd.TimeGrouper(freq=min_int)).agg({'Shift_ID': lambda x : len(set(x))})
Shift_ID
time
2016-03-22 09:00:00+00:00 1
2016-03-22 09:05:00+00:00 1
2016-03-22 09:10:00+00:00 1
2016-03-22 09:15:00+00:00 1
2016-03-22 09:20:00+00:00 2
2016-03-22 09:25:00+00:00 2
2016-03-22 09:30:00+00:00 2
2016-03-22 09:35:00+00:00 2
2016-03-22 09:40:00+00:00 2
Run Code Online (Sandbox Code Playgroud)
9:15时,有 1 个班次,而 9:20 时,有 2 个班次
这并不完全是您想要的输出,但我认为这更容易绘制。如果您想匹配所需的输出,那应该很容易(只需用于.shift创建移动一的日期列的副本)。
** 编辑
| 归档时间: |
|
| 查看次数: |
172 次 |
| 最近记录: |