在时间跨度的班次上计算所需的设备

Uis*_*234 5 python numpy pandas

我想在图表中的某个时间可视化作业车间中所需机器的数量,在x轴上是连续时间轴,在y轴上是移位数.

在下面的数据框中,您可以找到我的数据示例.在这里,您可以看到Shift_IDs(这是唯一的)以及该班次的开始和结束时间.在一天的时间里,我想知道在一定的时间间隔内需要多少台机器.这可以是5分钟,一刻钟,半小时和小时.

df:
   Shift_ID     Shift_Time_Start       Shift_Time_End
0         1   2016-03-22 9:00:00   2016-03-22 9:35:00
1         2   2016-03-22 9:20:00  2016-03-22 10:20:00
2         3   2016-03-22 9:40:00  2016-03-22 10:14:00
3         4  2016-03-22 10:00:00  2016-03-22 10:31:00
Run Code Online (Sandbox Code Playgroud)

在本季度9:30-9:45的示例中,我需要3台机器才能在该特定时间完成每个班次.所需的输出看起来像这样:

df2:

                                    Interval  Count
0    2016-03-22 9:00:00 - 2016-03-22 9:15:00      1
1    2016-03-22 9:15:00 - 2016-03-22 9:30:00      2
2    2016-03-22 9:30:00 - 2016-03-22 9:45:00      3
3   2016-03-22 9:45:00 - 2016-03-22 10:00:00      2
4  2016-03-22 10:00:00 - 2016-03-22 10:15:00      2
5  2016-03-22 10:15:00 - 2016-03-22 10:30:00      2
6  2016-03-22 10:30:00 - 2016-03-22 10:45:00      1
Run Code Online (Sandbox Code Playgroud)

使用此数据框,我可以将其舍入到间隔的最低边界,然后将其绘制在图形中.

我被困在如何"看"换班是否位于多个区间内.你有什么想法解决这个问题吗?

注意:所有日期时间值当然是日期时间类型

在解决MaxU和knightofni后编辑

我用MaxU的代码绘制了你的代码.他们似乎都在15分钟内做得很好,但请用5分钟看看你的结果:

MaxU:

在此输入图像描述

knightofni:

在此输入图像描述

编辑2 4 4 2015年4月

kni*_*fni 1

这不太容易。我真的想不出一种完全矢量化的方法,但这里有两种可行的方法。

1- 重新组织数据,以便只有一个日期时间列。目标是对于每个shift_ID,每个最小间隔一行。然后你就可以使用 timegrouper groupby 了。

工作示例:

重新创建您的数据框

import pandas as pd
import arrow

data = {
    'Shift_ID' : [1,2,3,4],
    'Shift_Time_Start' : [arrow.get('2016-03-22 09:00:00').datetime, 
                   arrow.get('2016-03-22 09:20:00').datetime,
                   arrow.get('2016-03-22 09:40:00').datetime,
                   arrow.get('2016-03-22 10:00:00').datetime
                   ],

    'Shift_Time_End' : [arrow.get('2016-03-22 09:35:00').datetime, 
                   arrow.get('2016-03-22 10:20:00').datetime,
                   arrow.get('2016-03-22 10:14:00').datetime,
                   arrow.get('2016-03-22 10:31:00').datetime
                   ],   
        }


df = pd.DataFrame(data)
min_int = '5T'
df

Shift_ID    Shift_Time_End  Shift_Time_Start
0   1   2016-03-22 09:35:00+00:00   2016-03-22 09:00:00+00:00
1   2   2016-03-22 10:20:00+00:00   2016-03-22 09:20:00+00:00
2   3   2016-03-22 10:14:00+00:00   2016-03-22 09:40:00+00:00
3   4   2016-03-22 10:31:00+00:00   2016-03-22 10:00:00+00:00
Run Code Online (Sandbox Code Playgroud)

创建新的 Df

new_data = {'time' : [], 'Shift_ID': []} # dict to hold the data

for row in df.iterrows():
    # creates a list of all dates of this shift, from start to end
    dates = pd.date_range(row[1].Shift_Time_Start, row[1].Shift_Time_End, freq=min_int)
    for date in dates:
        new_data['time'].append(date)
        new_data['Shift_ID'].append(row[1].Shift_ID)

# creating the new df    
newdf = pd.DataFrame(new_data).set_index('time')
newdf.head()


Shift_ID
time    
2016-03-22 09:00:00+00:00   1
2016-03-22 09:05:00+00:00   1
2016-03-22 09:10:00+00:00   1
2016-03-22 09:15:00+00:00   1
2016-03-22 09:20:00+00:00   1
Run Code Online (Sandbox Code Playgroud)

按时间分组

# We groupby the time column, resampling every min_int 
# (in our case 5 minutes, represented by '5T'), 
# then we check how many uniquer shift_id.
newdf.groupby(pd.TimeGrouper(freq=min_int)).agg({'Shift_ID': lambda x : len(set(x))})

    Shift_ID
time    
2016-03-22 09:00:00+00:00   1
2016-03-22 09:05:00+00:00   1
2016-03-22 09:10:00+00:00   1
2016-03-22 09:15:00+00:00   1
2016-03-22 09:20:00+00:00   2
2016-03-22 09:25:00+00:00   2
2016-03-22 09:30:00+00:00   2
2016-03-22 09:35:00+00:00   2
2016-03-22 09:40:00+00:00   2
Run Code Online (Sandbox Code Playgroud)

9:15时,有 1 个班次,而 9:20 时,有 2 个班次

这并不完全是您想要的输出,但我认为这更容易绘制。如果您想匹配所需的输出,那应该很容易(只需用于.shift创建移动一的日期列的副本)。

** 编辑

链接到带有代码的笔记本