如何在每一侧使用多个变量在 R 中进行模糊连接

Nic*_*as2 5 merge fuzzy-search r fuzzyjoin

我想加入两个数据框:

a <- data.frame(x=c(1,3,5))
b <- data.frame(start=c(0,4),end=c(2,6),y=c("a","b"))
Run Code Online (Sandbox Code Playgroud)

(x>start)&(x<end)为了得到这样的结果,条件如下:

#  x    y
#1 1    a
#2 2 <NA>
#3 3    b
Run Code Online (Sandbox Code Playgroud)

我不想制作一个潜在的大型笛卡尔积,然后只选择与条件匹配的几行,我想要一个使用 tidyverse 的解决方案(我对使用 SQL 的解决方案不感兴趣,这将是失败的坦白) . 我想到了 'fuzzyjoin' 包,但我找不到适合我需要的例子:申请条件的函数只有两个参数。我还尝试将“开始”和“结束”放入一个参数中data.frame(z=I(purrr::map2(b$start,b$end,list)),y=b$y) # z y #1 0, 2 a #2 4, 6 b

但尽管数据看起来不错,但fuzzy_left_join 不接受。

我寻找在更一般情况下工作的解决方案(LHS 上的 n 个变量,RHS 上的 m,不一定是具有任意条件的数字)。

更新

我还希望能够表达条件,例如(x=start+1)|(x=end+1)在此处提供:

#   x  y
#1  1  a
#2  3  a
#3  5  b
Run Code Online (Sandbox Code Playgroud)

Moo*_*per 5

对于这种情况,您不需要multi_byor multy_match_fun,这是有效的:

library(fuzzyjoin)
fuzzy_left_join(a, b, by = c(x = "start", x = "end"), match_fun = list(`>`, `<`))
#   x start end    y
# 1 1     0   2    a
# 2 3    NA  NA <NA>
# 3 5     4   6    b
Run Code Online (Sandbox Code Playgroud)


Rom*_*man 0

您可以尝试GenomicRanges解决方案

library(GenomicRanges)
# setup GRanges objects
a_gr <- GRanges(1, IRanges(a$x,a$x))
b_gr <- GRanges(1, IRanges(b$start, b$end))
# find overlaps between the two data sets
res <- as.data.frame(findOverlaps(a_gr,b_gr))
# create the expected output
a$y <- NA
a$y[res$queryHits] <- as.character(b$y)[res$subjectHits]
a
  x    y
1 1    a
2 3 <NA>
3 5    b
Run Code Online (Sandbox Code Playgroud)