比较两个data.frames以查找data.frame 1中不存在于data.frame 2中的行

Question

比较两个data.frames以查找data.frame 1中不存在于data.frame 2中的行

Tal*_*ili 152 merge compare r rows dataframe

我有以下2个data.frames:

a1 <- data.frame(a = 1:5, b=letters[1:5])
a2 <- data.frame(a = 1:3, b=letters[1:3])

Run Code Online (Sandbox Code Playgroud)

我想找到a1没有的行a1.

这种类型的操作是否有内置功能？

(ps:我确实为它编写了一个解决方案,如果有人已经制作了更加精心设计的代码,我感到很好奇)

这是我的解决方案:

a1 <- data.frame(a = 1:5, b=letters[1:5])
a2 <- data.frame(a = 1:3, b=letters[1:3])

rows.in.a1.that.are.not.in.a2  <- function(a1,a2)
{
    a1.vec <- apply(a1, 1, paste, collapse = "")
    a2.vec <- apply(a2, 1, paste, collapse = "")
    a1.without.a2.rows <- a1[!a1.vec %in% a2.vec,]
    return(a1.without.a2.rows)
}
rows.in.a1.that.are.not.in.a2(a1,a2)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ric*_*ard 137

SQLDF 提供了一个很好的解决

a1 <- data.frame(a = 1:5, b=letters[1:5])
a2 <- data.frame(a = 1:3, b=letters[1:3])

require(sqldf)

a1NotIna2 <- sqldf('SELECT * FROM a1 EXCEPT SELECT * FROM a2')

Run Code Online (Sandbox Code Playgroud)

以及两个数据框中的行:

a1Ina2 <- sqldf('SELECT * FROM a1 INTERSECT SELECT * FROM a2')

Run Code Online (Sandbox Code Playgroud)

新版本dplyr有一个功能,anti_join正是为了这些类型的比较

require(dplyr) 
anti_join(a1,a2)

Run Code Online (Sandbox Code Playgroud)

而semi_join过滤行的a1,同时也是在a2

semi_join(a1,a2)

Run Code Online (Sandbox Code Playgroud)

感谢`anti_join`和`semi_join`! (14认同)

Answer 2

nul*_*lob 85

这不会直接回答您的问题,但它会为您提供共同的元素.这可以通过Paul Murrell的包来完成compare:

library(compare)
a1 <- data.frame(a = 1:5, b = letters[1:5])
a2 <- data.frame(a = 1:3, b = letters[1:3])
comparison <- compare(a1,a2,allowAll=TRUE)
comparison$tM
#  a b
#1 1 a
#2 2 b
#3 3 c

Run Code Online (Sandbox Code Playgroud)

该函数compare在允许哪种比较方面为您提供了很大的灵活性(例如,改变每个向量的元素顺序,改变变量的顺序和名称,缩短变量,改变字符串的大小写).由此,您应该能够找出其中一个或哪个缺失的东西.例如(这不是很优雅):

difference <-
   data.frame(lapply(1:ncol(a1),function(i)setdiff(a1[,i],comparison$tM[,i])))
colnames(difference) <- colnames(a1)
difference
#  a b
#1 4 d
#2 5 e

Run Code Online (Sandbox Code Playgroud)

我发现这个功能令人困惑.我认为这对我有用,但是如果一个集合包含与另一个集合相同的行,它似乎只能如上所示工作.考虑这种情况:`a2 < - data.frame(a = c(1:3,1),b = c(字母[1:3],"c"))`.让`a1`保持不变.现在尝试比较.即使在阅读选项时,我也不清楚只列出常用元素的正确方法. (3认同)

Answer 3

lee*_*sej 64

在dplyr中:

setdiff(a1,a2)

Run Code Online (Sandbox Code Playgroud)

基本上,setdiff(bigFrame, smallFrame)在第一个表中获取额外的记录.

在SQLverse中,这称为a

有关所有连接选项和设置主题的详细说明,这是我见过的迄今为止最好的摘要之一:http://www.vertabelo.com/blog/technical-articles/sql-joins

但回到这个问题 - 这是setdiff()使用OP数据时代码的结果:

> a1
  a b
1 1 a
2 2 b
3 3 c
4 4 d
5 5 e

> a2
  a b
1 1 a
2 2 b
3 3 c

> setdiff(a1,a2)
  a b
1 4 d
2 5 e

Run Code Online (Sandbox Code Playgroud)

甚至anti_join(a1,a2)会得到相同的结果.
有关详细信息,请访问:https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf

由于OP要求'a1`中不在'a2`中的项目,你不想使用像`semi_join(a1,a2,by = c('a','b'))`这样的东西吗？在"Rickard"的回答中,我看到提出了`semi_join`. (2认同)

Answer 4

Edu*_*oni 39

对于这个特定的目的来说肯定没有效率,但在这些情况下我经常做的是在每个data.frame中插入指示符变量然后合并:

a1$included_a1 <- TRUE
a2$included_a2 <- TRUE
res <- merge(a1, a2, all=TRUE)

Run Code Online (Sandbox Code Playgroud)

included_a1中缺少的值将记录a1中缺少哪些行.类似于a2.

您的解决方案的一个问题是列顺序必须匹配.另一个问题是很容易想象在实际上不同的情况下将行编码为相同的情况.使用合并的好处是,您可以免费获得良好解决方案所需的所有错误检查.

感谢您教授一种无需安装新库的方法！ (2认同)

Answer 5

Ale*_*eph 25

我写了一个包(https://github.com/alexsanjoseph/compareDF),因为我有同样的问题.

  > df1 <- data.frame(a = 1:5, b=letters[1:5], row = 1:5)
  > df2 <- data.frame(a = 1:3, b=letters[1:3], row = 1:3)
  > df_compare = compare_df(df1, df2, "row")

  > df_compare$comparison_df
    row chng_type a b
  1   4         + 4 d
  2   5         + 5 e

Run Code Online (Sandbox Code Playgroud)

一个更复杂的例子:

library(compareDF)
df1 = data.frame(id1 = c("Mazda RX4", "Mazda RX4 Wag", "Datsun 710",
                         "Hornet 4 Drive", "Duster 360", "Merc 240D"),
                 id2 = c("Maz", "Maz", "Dat", "Hor", "Dus", "Mer"),
                 hp = c(110, 110, 181, 110, 245, 62),
                 cyl = c(6, 6, 4, 6, 8, 4),
                 qsec = c(16.46, 17.02, 33.00, 19.44, 15.84, 20.00))

df2 = data.frame(id1 = c("Mazda RX4", "Mazda RX4 Wag", "Datsun 710",
                         "Hornet 4 Drive", " Hornet Sportabout", "Valiant"),
                 id2 = c("Maz", "Maz", "Dat", "Hor", "Dus", "Val"),
                 hp = c(110, 110, 93, 110, 175, 105),
                 cyl = c(6, 6, 4, 6, 8, 6),
                 qsec = c(16.46, 17.02, 18.61, 19.44, 17.02, 20.22))

> df_compare$comparison_df
    grp chng_type                id1 id2  hp cyl  qsec
  1   1         -  Hornet Sportabout Dus 175   8 17.02
  2   2         +         Datsun 710 Dat 181   4 33.00
  3   2         -         Datsun 710 Dat  93   4 18.61
  4   3         +         Duster 360 Dus 245   8 15.84
  5   7         +          Merc 240D Mer  62   4 20.00
  6   8         -            Valiant Val 105   6 20.22

Run Code Online (Sandbox Code Playgroud)

该软件包还有一个html_output命令,用于快速检查

df_compare $ html_output

Answer 6

Sal*_*m B 13

您可以使用daff包装(包装了daff.js库使用的V8包):

library(daff)

diff_data(data_ref = a2,
          data = a1)

Run Code Online (Sandbox Code Playgroud)

产生以下差异对象:

Daff Comparison: ‘a2’ vs. ‘a1’ 
  First 6 and last 6 patch lines:
   @@   a   b
1 ... ... ...
2       3   c
3 +++   4   d
4 +++   5   e
5 ... ... ...
6 ... ... ...
7       3   c
8 +++   4   d
9 +++   5   e

Run Code Online (Sandbox Code Playgroud)

diff格式在表的Coopy highlighter diff格式中描述,应该是非常明显的.与线+++在第一列@@是其在新的那些a1和在不存在a2.

差异对象可用于patch_data()存储差异以用于文档目的,write_diff()或使用render_diff()以下内容可视化差异:

render_diff(
    diff_data(data_ref = a2,
              data = a1)
)

Run Code Online (Sandbox Code Playgroud)

生成一个整洁的HTML输出:

Answer 7

zx8*_*754 10

使用diffobj包:

library(diffobj)

diffPrint(a1, a2)
diffObj(a1, a2)

Run Code Online (Sandbox Code Playgroud)

Answer 8

Hen*_*ico 8

我调整了该merge功能以获得此功能.在较大的数据帧上,它使用的内存少于完整合并解决方案.我可以使用关键列的名称.

另一种解决方案是使用该库prob.

#  Derived from src/library/base/R/merge.R
#  Part of the R package, http://www.R-project.org
#
#  This program is free software; you can redistribute it and/or modify
#  it under the terms of the GNU General Public License as published by
#  the Free Software Foundation; either version 2 of the License, or
#  (at your option) any later version.
#
#  This program is distributed in the hope that it will be useful,
#  but WITHOUT ANY WARRANTY; without even the implied warranty of
#  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
#  GNU General Public License for more details.
#
#  A copy of the GNU General Public License is available at
#  http://www.r-project.org/Licenses/

XinY <-
    function(x, y, by = intersect(names(x), names(y)), by.x = by, by.y = by,
             notin = FALSE, incomparables = NULL,
             ...)
{
    fix.by <- function(by, df)
    {
        ## fix up 'by' to be a valid set of cols by number: 0 is row.names
        if(is.null(by)) by <- numeric(0L)
        by <- as.vector(by)
        nc <- ncol(df)
        if(is.character(by))
            by <- match(by, c("row.names", names(df))) - 1L
        else if(is.numeric(by)) {
            if(any(by < 0L) || any(by > nc))
                stop("'by' must match numbers of columns")
        } else if(is.logical(by)) {
            if(length(by) != nc) stop("'by' must match number of columns")
            by <- seq_along(by)[by]
        } else stop("'by' must specify column(s) as numbers, names or logical")
        if(any(is.na(by))) stop("'by' must specify valid column(s)")
        unique(by)
    }

    nx <- nrow(x <- as.data.frame(x)); ny <- nrow(y <- as.data.frame(y))
    by.x <- fix.by(by.x, x)
    by.y <- fix.by(by.y, y)
    if((l.b <- length(by.x)) != length(by.y))
        stop("'by.x' and 'by.y' specify different numbers of columns")
    if(l.b == 0L) {
        ## was: stop("no columns to match on")
        ## returns x
        x
    }
    else {
        if(any(by.x == 0L)) {
            x <- cbind(Row.names = I(row.names(x)), x)
            by.x <- by.x + 1L
        }
        if(any(by.y == 0L)) {
            y <- cbind(Row.names = I(row.names(y)), y)
            by.y <- by.y + 1L
        }
        ## create keys from 'by' columns:
        if(l.b == 1L) {                  # (be faster)
            bx <- x[, by.x]; if(is.factor(bx)) bx <- as.character(bx)
            by <- y[, by.y]; if(is.factor(by)) by <- as.character(by)
        } else {
            ## Do these together for consistency in as.character.
            ## Use same set of names.
            bx <- x[, by.x, drop=FALSE]; by <- y[, by.y, drop=FALSE]
            names(bx) <- names(by) <- paste("V", seq_len(ncol(bx)), sep="")
            bz <- do.call("paste", c(rbind(bx, by), sep = "\r"))
            bx <- bz[seq_len(nx)]
            by <- bz[nx + seq_len(ny)]
        }
        comm <- match(bx, by, 0L)
        if (notin) {
            res <- x[comm == 0,]
        } else {
            res <- x[comm > 0,]
        }
    }
    ## avoid a copy
    ## row.names(res) <- NULL
    attr(res, "row.names") <- .set_row_names(nrow(res))
    res
}


XnotinY <-
    function(x, y, by = intersect(names(x), names(y)), by.x = by, by.y = by,
             notin = TRUE, incomparables = NULL,
             ...)
{
    XinY(x,y,by,by.x,by.y,notin,incomparables)
}

Run Code Online (Sandbox Code Playgroud)

Answer 9

jan*_*cki 6

您的示例数据没有任何重复项,但您的解决方案会自动处理它们.这意味着在重复的情况下,潜在的某些答案可能与您的函数结果不匹配.
这是我的解决方案,它以与您相同的方式解决重复问题.它也很棒!

a1 <- data.frame(a = 1:5, b=letters[1:5])
a2 <- data.frame(a = 1:3, b=letters[1:3])
rows.in.a1.that.are.not.in.a2  <- function(a1,a2)
{
    a1.vec <- apply(a1, 1, paste, collapse = "")
    a2.vec <- apply(a2, 1, paste, collapse = "")
    a1.without.a2.rows <- a1[!a1.vec %in% a2.vec,]
    return(a1.without.a2.rows)
}

library(data.table)
setDT(a1)
setDT(a2)

# no duplicates - as in example code
r <- fsetdiff(a1, a2)
all.equal(r, rows.in.a1.that.are.not.in.a2(a1,a2))
#[1] TRUE

# handling duplicates - make some duplicates
a1 <- rbind(a1, a1, a1)
a2 <- rbind(a2, a2, a2)
r <- fsetdiff(a1, a2, all = TRUE)
all.equal(r, rows.in.a1.that.are.not.in.a2(a1,a2))
#[1] TRUE

Run Code Online (Sandbox Code Playgroud)

它需要data.table 1.9.8+

归档时间：	15 年，6 月前
查看次数：	268642 次
最近记录：	7 年，4 月前