如何匹配pandas DataFrame中的多个列为"间隔"？

Question

如何匹配pandas DataFrame中的多个列为"间隔"？

Sha*_*ang 6 python match intervals dataframe pandas

我有以下pandas DataFrame:

import pandas as pd
df = pd.DataFrame('filename.csv')
print(df)

order    start    end    value    
1        1342    1357    category1
1        1459    1489    category7
1        1572    1601    category23
1        1587    1599    category2
1        1591    1639    category1
....
15        792     813    category13
15        892     913    category5
....

Run Code Online (Sandbox Code Playgroud)

所以,有一个order列各自涵盖许多行,然后从一个范围/间隔start来end为每一行.然后每行标记一定value(例如category1,category2等)

现在我有一个名为的另一个数据帧key_df.它基本上是完全相同的格式:

import pandas as pd
key_df = pd.DataFrame(...)
print(key_df)

order    start    end    value    
1        1284    1299    category4
1        1297    1309    category9
1        1312    1369    category3
1        1345    1392    category29
1        1371    1383    category31
....
1        1471    1501    category31
...

Run Code Online (Sandbox Code Playgroud)

我的目标是获取key_df数据帧并检查间隔是否start:end与原始数据帧中的任何行匹配df.如果是,则该行df应标记为key_dfdataframe的value值.

在上面的示例中,数据框df最终会像这样:

order    start    end    value        key_value
1        1342    1357    category1    category29
1        1459    1489    category7    category31
....

Run Code Online (Sandbox Code Playgroud)

这是因为如果你看一下key_df,那行

1        1345    1392    category29

Run Code Online (Sandbox Code Playgroud)

间隔1::1345-1392落在1::1342-1357原始区间df.同样,key_df行:

1        1471    1501    category31

Run Code Online (Sandbox Code Playgroud)

对应于第二行df:

1        1459    1489    category7    category31

Run Code Online (Sandbox Code Playgroud)

我不完全确定

(1)如何在熊猫中完成这项任务

(2)如何在熊猫中有效地扩展它

可以从if语句开始,例如

if df.order == key_df.order:
    # now check intervals...somehow

Run Code Online (Sandbox Code Playgroud)

但这并没有利用数据帧结构.然后必须按间隔检查,即类似的东西(df.start =< key_df.start) && (df.end => key_df.end)

我被卡住了.在pandas中"间隔"中匹配多个列的最有效方法是什么？(如果满足此条件,则创建新列非常简单)

Answer 1

jez*_*ael 3

您可以使用mergewith boolean indexing，但如果DataFrames很大，缩放就会出现问题：

df1 = pd.merge(df, key_df, on='order', how='outer', suffixes=('','_key'))
df1 = df1[(df1.start <= df1.start_key) & (df1.end <= df1.end_key)]
print (df1)
    order  start   end      value  start_key  end_key   value_key
3       1   1342  1357  category1     1345.0   1392.0  category29
4       1   1342  1357  category1     1371.0   1383.0  category31
5       1   1342  1357  category1     1471.0   1501.0  category31
11      1   1459  1489  category7     1471.0   1501.0  category31

Run Code Online (Sandbox Code Playgroud)

按评论编辑：

df1 = pd.merge(df, key_df, on='order', how='outer', suffixes=('','_key'))
df1 = df1[(df1.start <= df1.start_key) & (df1.end <= df1.end_key)]
df1 = pd.merge(df, df1, on=['order','start','end', 'value'], how='left')
print (df1)
   order  start   end       value  start_key  end_key   value_key
0      1   1342  1357   category1     1345.0   1392.0  category29
1      1   1342  1357   category1     1371.0   1383.0  category31
2      1   1342  1357   category1     1471.0   1501.0  category31
3      1   1459  1489   category7     1471.0   1501.0  category31
4      1   1572  1601  category23        NaN      NaN         NaN
5      1   1587  1599   category2        NaN      NaN         NaN
6      1   1591  1639   category1        NaN      NaN         NaN
7     15    792   813  category13        NaN      NaN         NaN
8     15    892   913   category5        NaN      NaN         NaN

Run Code Online (Sandbox Code Playgroud)

电子邮件！这对我有什么帮助？ (2认同)

归档时间：	9 年，2 月前
查看次数：	6182 次
最近记录：	9 年，2 月前