pandas - 根据符合条件的列合并行

5 python merge conditional pandas

我是熊猫的新手,我不知道最好的方法.

我有两个文件,我放在两个不同的数据帧中:

>> frame1.head()
Out[64]:

    Date and Time           Sample  Unnamed: 2
0   05/18/2017 08:38:37:490 163.7   NaN
1   05/18/2017 08:39:37:490 164.5   NaN
2   05/18/2017 08:40:37:490 148.7   NaN
3   05/18/2017 08:41:37:490 111.2   NaN
4   05/18/2017 08:42:37:490 83.6    NaN


>>frame2.head()
Out[66]:
Date and Time               Sample  Unnamed: 2
0   05/18/2017 08:38:38:490 7.5 NaN
1   05/18/2017 08:39:38:490 7.5 NaN
2   05/18/2017 08:40:38:490 7.5 NaN
3   05/18/2017 08:41:38:490 7.5 NaN
4   05/18/2017 08:42:38:490 7.5 NaN
Run Code Online (Sandbox Code Playgroud)

我需要"合并"第1帧中的任何行,第2帧中的任何行,彼此相差一秒.

例如,第1帧中的这一行:

0   05/18/2017 08:38:37:490 163.7   NaN
Run Code Online (Sandbox Code Playgroud)

在第2帧的这一行的一秒内:

0   05/18/2017 08:38:38:490 7.5 NaN
Run Code Online (Sandbox Code Playgroud)

所以当他们"合并"时输出应该是这样的:

0   05/18/2017 08:38:37:490 163.7 7.5 NaN NaN
Run Code Online (Sandbox Code Playgroud)

换句话说,一行将其时间替换为另一行,并且仅附加所有剩余列

我最接近的是做类似的事情:

    d3 = pd.merge(frame1, frame2, on='Date and Time (MM/DD/YYYY HH:MM:SS:sss)', how='outer')

>>d3.head()
    Date and Time           Sample_x    Unnamed: 2_x    Sample_y    Unnamed: 2_y
0   05/18/2017 08:38:37:490 163.7   NaN NaN NaN
1   05/18/2017 08:39:37:490 164.5   NaN NaN NaN
2   05/18/2017 08:40:37:490 148.7   NaN NaN NaN
3   05/18/2017 08:41:37:490 111.2   NaN NaN NaN
4   05/18/2017 08:42:37:490 83.6    NaN NaN NaN
Run Code Online (Sandbox Code Playgroud)

但是,这不是一个有条件的合并 ..我需要合并,如果它们在一秒之内,而不是完全相同.

我知道我可以将时间与以下内容进行比较:

def compare_time(temp, sec=1):
   return abs(current - temp) <= datetime.timedelta(seconds=sec)
Run Code Online (Sandbox Code Playgroud)

然后使用.apply()或其他东西......但我不知道如何将所有这些拼凑在一起

编辑:看起来pd.merge_asof做得很好,但我还需要保留最终帧中不匹配/合并的行

编辑2:

df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
                     'sample':  np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
                     'sample':  np.arange(4) })

blah = pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') )  \
    .append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
blah
Run Code Online (Sandbox Code Playgroud)

收益:

    datetime    sample_x    sample_y
0   2017-01-01 00:00:00.000 0   100.0
1   2017-01-01 00:00:00.300 1   100.0
2   2017-01-01 00:00:00.600 2   100.0
3   2017-01-01 00:00:00.900 3   100.0
0   2017-01-01 00:00:00.000 100 NaN
1   2017-01-01 00:00:01.000 101 NaN
2   2017-01-01 00:00:02.000 102 NaN
3   2017-01-01 00:00:03.000 103 NaN
Run Code Online (Sandbox Code Playgroud)

注意它保留了原始行索引(零列出两次)..

Joh*_*hnE 1

您可以按照 @Wen 建议使用merge_asof,但请务必指定 的可选值tolerance。还要考虑设置direction匹配的选项值,可以是“向后”(默认)、“最近”或“向前”。

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )
Run Code Online (Sandbox Code Playgroud)

这是示例数据的更长解释(请注意,我只是创建新的示例数据,因为我只能看到实际数据的前几行):

df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
                     'sample':  np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
                     'sample':  np.arange(4) })

df1
Out[208]: 
             datetime  sample
0 2017-01-01 00:00:00     100
1 2017-01-01 00:00:01     101
2 2017-01-01 00:00:02     102
3 2017-01-01 00:00:03     103

df2
Out[209]: 
                 datetime  sample
0 2017-01-01 00:00:00.000       0
1 2017-01-01 00:00:00.300       1
2 2017-01-01 00:00:00.600       2
3 2017-01-01 00:00:00.900       3

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )
Out[210]: 
             datetime  sample_x  sample_y
0 2017-01-01 00:00:00       100       0.0
1 2017-01-01 00:00:01       101       3.0
2 2017-01-01 00:00:02       102       NaN
3 2017-01-01 00:00:03       103       NaN
Run Code Online (Sandbox Code Playgroud)

请注意,merge_asof执行左连接,以便您可以通过更改 df1 和 df2 的顺序获得不同的答案:

pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') )
Out[218]: 
                 datetime  sample_x  sample_y
0 2017-01-01 00:00:00.000         0       100
1 2017-01-01 00:00:00.300         1       100
2 2017-01-01 00:00:00.600         2       100
3 2017-01-01 00:00:00.900         3       100
Run Code Online (Sandbox Code Playgroud)

编辑添加: 文档说merge_asof按设计进行左连接,但它似乎与真正的左连接不同,因为它排除了左数据框中不匹配的行。要解决这个问题,你可以这样做:

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )  \
    .append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
Out[236]: 
             datetime  sample_x  sample_y
0 2017-01-01 00:00:00       100       0.0
1 2017-01-01 00:00:01       101       3.0
2 2017-01-01 00:00:02       102       NaN
3 2017-01-01 00:00:03       103       NaN
Run Code Online (Sandbox Code Playgroud)

请注意,您可能需要drop_duplicates根据是否具有唯一索引和/或唯一列进行调整。