检查时间戳列是否在另一个数据帧的日期范围内

jyn*_*ynn 5 python timestamp range dataframe pandas

我有一个数据框 df_A,有两列“amin”和“amax”,这是一组时间范围。

我的目标是查找 df_B 中的列是否位于 df_A 'amin' 和 'amax' 列中范围的任何行之间。

df_A[['amin','amax'] ]

                  amin                   amax
          0 2016-07-16 19:37:03   2016-07-17 11:16:32
          1 2016-07-04 21:15:54   2016-07-05 10:57:46
          2 2016-07-24 23:30:41   2016-07-25 15:38:02
          3 2016-07-12 03:02:38   2016-07-12 22:11:01

df_B['created_date']

      created_date
   2016-07-17 01:16:32 
   2016-07-05 10:15:54  
   2016-07-12 12:11:01


df_A['amin'] = pd.to_datetime(df_A['amin'], errors='coerce')
df_A['amax'] = pd.to_datetime(df_A['amax'], errors='coerce')
df_B['created_date'] = pd.to_datetime(df_B['created_date'],errors='coerce')

def dt2epoch(value):
   epoch = (value - pd.to_datetime(datetime(2015,12,31).strftime('%Y-%m-%d %H:%M:%S.%f'))).total_seconds()
   return epoch    

df_A['amax_epoch']=df_A['amax'].apply(dt2epoch)
df_A['amin_epoch']=df_A['amin'].apply(dt2epoch)
df_B['created_date_epoch']=df_B['created_date'].apply(dt2epoch)


def make_tuple(row):
     n= len(row)
     row = [(x,row[n - 1]) for x in row]
     return row

minMaxTuple = minMax.apply(make_tuple, axis =1)
Run Code Online (Sandbox Code Playgroud)

上面是我的代码的一部分,我在下面尝试过(不确定是否有必要):

  1. 将它们转换为纪元值
  2. 将 df_A 转换为元组。

但是,df_A 和 df_B 的行数不同。另外,我没有任何 id 列将它们合并在一起。

label = []

for l in df_B['created_date_epoch']:

    if (m[0] for m in minMaxTuple) <= l <= (m[1] for m in minMaxTuple):
        label.append('1')
    else:
        label.append('0')
Run Code Online (Sandbox Code Playgroud)

但是,当我运行此命令时,我得到的“标签”结果是一个空列表。

此外,标签应该是与 df_A 具有相同行数的列。

最后,我想在 df_A 中添加一个新的“标签”列:

                              minMaxTuple                      label
            (2016-07-16 19:37:03, 2016-07-17 11:16:32)            1
            (2016-07-04 21:15:54, 2016-07-05 10:57:46)            1 
            (2016-07-24 23:30:41, 2016-07-25 15:38:02)            0
            (2016-07-12 03:02:38, 2016-07-12 22:11:01)            1
Run Code Online (Sandbox Code Playgroud)

dub*_*dan 0

一种解决方案是查看created_datedf_b 中的 a 是否落在 a 之间amin,并amax使用布尔逻辑。在对每一行进行逐行计算时,df_a您可以使用以下逻辑:

if sum((row['amin'] > df_b['created_date']) | (row['amax'] < df_b['created_date'])) == len(df_b)
Run Code Online (Sandbox Code Playgroud)

在本节中,我使用逻辑运算符|来检查是否amin小于created_date或如果amax小于created_date。如果该语句是,True您可以得出结论,创建日期不在amin和创建的时间段之间amax。如果和created_dates创建的周期之间没有任何落差,那么您可以将值分配给:类似于:aminamax0df_a['label']

import pandas as pd
from StringIO import StringIO

def myfunc(row, df_b):
    if sum((row['amin'] > df_b['created_date']) | (row['amax'] < df_b['created_date'])) == len(df_b):
        return 0
    else:
        return 1

a_str= """
amin,amax
2016-07-16 19:37:03,2016-07-17 11:16:32
2016-07-04 21:15:54,2016-07-05 10:57:46
2016-07-24 23:30:41,2016-07-25 15:38:02
2016-07-12 03:02:38,2016-07-12 22:11:01"""

b_str = """
created_date
2016-07-17 01:16:32 
2016-07-05 10:15:54  
2016-07-12 12:11:01"""
df_a = pd.read_csv(StringIO(a_str), sep=',')
df_b = pd.read_csv(StringIO(b_str), sep=',')

#Convert to datetime
df_a['amin'] = pd.to_datetime(df_a['amin'])
df_a['amax'] = pd.to_datetime(df_a['amax'])
df_b['created_date'] = pd.to_datetime(df_b['created_date'])

df_a['label'] = df_a.apply(lambda x: myfunc(x,df_b), axis=1)
Run Code Online (Sandbox Code Playgroud)

它返回一个列label,其中df_a的预期输出为:

                 amin                amax  label
0 2016-07-16 19:37:03 2016-07-17 11:16:32      1
1 2016-07-04 21:15:54 2016-07-05 10:57:46      1
2 2016-07-24 23:30:41 2016-07-25 15:38:02      0
3 2016-07-12 03:02:38 2016-07-12 22:11:01      1
Run Code Online (Sandbox Code Playgroud)