R dplyr full_join - 没有公共键，需要公共列混合在一起

Question

R dplyr full_join - 没有公共键，需要公共列混合在一起

例如，我有这两个数据框：

dates = c('2020-11-19', '2020-11-20', '2020-11-21')
df1 <- data.frame(dates, area = c('paris', 'london', 'newyork'), 
                  rating = c(10, 5, 6),
                  rating2 = c(5, 6, 7))

df2 <- data.frame(dates, area = c('budapest', 'moscow', 'valencia'), 
                  rating = c(1, 2, 1))

Run Code Online (Sandbox Code Playgroud)

> df1
       dates    area rating rating2
1 2020-11-19   paris     10       5
2 2020-11-20  london      5       6
3 2020-11-21 newyork      6       7
> df2
       dates     area rating
1 2020-11-19 budapest      1
2 2020-11-20   moscow      2
3 2020-11-21 valencia      1

Run Code Online (Sandbox Code Playgroud)

使用 dplyr 执行外连接时：

df <- df1 %>%
  full_join(df2, by = c('dates', 'area'))

Run Code Online (Sandbox Code Playgroud)

结果是这样的：

       dates     area rating.x rating2 rating.y
1 2020-11-19    paris       10       5       NA
2 2020-11-20   london        5       6       NA
3 2020-11-21  newyork        6       7       NA
4 2020-11-19 budapest       NA      NA        1
5 2020-11-20   moscow       NA      NA        2
6 2020-11-21 valencia       NA      NA        1

Run Code Online (Sandbox Code Playgroud)

即两个数据帧的评级列不会混合在一起，而是创建两个单独的列。

我怎样才能得到这样的结果？

       dates     area rating   rating2 
1 2020-11-19    paris       10       5       
2 2020-11-20   london        5       6       
3 2020-11-21  newyork        6       7       
4 2020-11-19 budapest        1      NA        
5 2020-11-20   moscow        2      NA        
6 2020-11-21 valencia        1      NA

Run Code Online (Sandbox Code Playgroud)

感谢@kybazzi提供的解决方案，得到了想要的结果。

df <- df1 %>%
  bind_rows(df2)

Run Code Online (Sandbox Code Playgroud)

跟进

作为后续问题，我想将以下内容加入到连接的数据框中：

df3 <- data.frame(dates, area = c('budapest', 'moscow', 'valencia'), 
                  rating2 = c(3, 2, 5))

Run Code Online (Sandbox Code Playgroud)

使用同样的方法，结果是这样的：

> df_final <- df %>%
+     bind_rows(df3)
> df_final
       dates     area rating rating2
1 2020-11-19    paris     10       5
2 2020-11-20   london      5       6
3 2020-11-21  newyork      6       7
4 2020-11-19 budapest      1      NA
5 2020-11-20   moscow      2      NA
6 2020-11-21 valencia      1      NA
7 2020-11-19 budapest     NA       3
8 2020-11-20   moscow     NA       2
9 2020-11-21 valencia     NA       5

Run Code Online (Sandbox Code Playgroud)

我如何得到这样的结果：

       dates     area rating   rating2 
1 2020-11-19    paris       10       5       
2 2020-11-20   london        5       6       
3 2020-11-21  newyork        6       7       
4 2020-11-19 budapest        1       3        
5 2020-11-20   moscow        2       2        
6 2020-11-21 valencia        1       5

Run Code Online (Sandbox Code Playgroud)

Answer 1

kyb*_*zzi 5

您正在寻找的是dplyr::bind_rows()，它将保留公共列并填充NA仅存在于其中一个数据帧中的列：

> bind_rows(df1, df2)
       dates     area rating rating2
1 2020-11-19    paris     10       5
2 2020-11-20   london      5       6
3 2020-11-21  newyork      6       7
4 2020-11-19 budapest      1      NA
5 2020-11-20   moscow      2      NA
6 2020-11-21 valencia      1      NA

Run Code Online (Sandbox Code Playgroud)

请注意，您也可以继续使用full_join()- 但如果您不希望拆分列，则必须确保数据帧之间的所有公共列都作为键包含在内：

> full_join(
+   df1, df2,
+   by = c("dates", "area", "rating")
+ )
       dates     area rating rating2
1 2020-11-19    paris     10       5
2 2020-11-20   london      5       6
3 2020-11-21  newyork      6       7
4 2020-11-19 budapest      1      NA
5 2020-11-20   moscow      2      NA
6 2020-11-21 valencia      1      NA

Run Code Online (Sandbox Code Playgroud)

dplyr join 的文档提到：

输出列包括所有x列和所有y列。如果x和中的列y具有相同的名称（并且不包含在中by），则会添加后缀以消除歧义。

您还可以通过不指定来避免此问题by，在这种情况下 dplyr 将使用所有常见列。

> full_join(df1, df2)
Joining, by = c("dates", "area", "rating")
       dates     area rating rating2
1 2020-11-19    paris     10       5
2 2020-11-20   london      5       6
3 2020-11-21  newyork      6       7
4 2020-11-19 budapest      1      NA
5 2020-11-20   moscow      2      NA
6 2020-11-21 valencia      1      NA

Run Code Online (Sandbox Code Playgroud)

据我所知，这两种方法都适合您的用例。事实上，我相信实际的优势full_join()正是bind_rows()您想要避免的这种行为，即拆分不是键的列。

对于任何找不到它的人，“bind_rows”函数来自“dplyr”包！ (2认同)

归档时间：	3 年，12 月前
查看次数：	952 次
最近记录：	3 年，12 月前