dplyr left_join匹配NA

And*_*ald 7 r dplyr

当沿着键连接data.frames,并且一个键具有缺失值(NA)时,我的直觉是具有NA键的行在第二个data.frame中应该没有匹配.令我惊讶的是,如果两个data.frame中都有NA,则dplyr将它们匹配,就像它们是值一样.

这是另外令人困惑的,因为详细讨论了dplyr存储库中的问题,请看这里,它似乎已经解决了!如果是这样,我没有看到这是正确的解决方案; 或许我错过了什么

我正在使用dplyr 0.7.4


t1 <- data.frame(a = as.character(c("1", "2", NA, NA, "4", "2")), b = c(1, 2, 3, 3, 4, 5), stringsAsFactors = FALSE)
t2 <- data.frame(a = as.character(c("1", "2", NA)), c = c("b", "n", "i"), stringsAsFactors = FALSE)
library(dplyr)
t1
#>      a b
#> 1    1 1
#> 2    2 2
#> 3 <NA> 3
#> 4 <NA> 3
#> 5    4 4
#> 6    2 5
t2
#>      a c
#> 1    1 b
#> 2    2 n
#> 3 <NA> i
left_join(t1, t2, by = "a")
#>      a b    c
#> 1    1 1    b
#> 2    2 2    n
#> 3 <NA> 3    i
#> 4 <NA> 3    i
#> 5    4 4 <NA>
#> 6    2 5    n
Run Code Online (Sandbox Code Playgroud)

事实上,我会预料到以下情况:

#>      a b    c
#> 1    1 1    b
#> 2    2 2    n
#> 3 <NA> 3 <NA>
#> 4 <NA> 3 <NA>
#> 5    4 4 <NA>
#> 6    2 5    n
Run Code Online (Sandbox Code Playgroud)

And*_*ald 7

解决方案是使用参数na_matches = "never"Dani RabaiottiHadley Wickham在 Twitter 上指出了这一点。

该参数记录在left_join该类的方法中tbl_df?left_join.tbl_df