如何加快在数据表中查找反转行的过程

Question

如何加快在数据表中查找反转行的过程

给定data.tableR 中的 a，我想找到与前一行相反版本的行。例如：

>head(DT)
   V1      V2 
 1 nameA   nameB 
 2 nameA   nameC
 3 nameB   nameA
 4 nameB   nameF
 5 nameN   nameP
 6 nameP   nameN

Run Code Online (Sandbox Code Playgroud)

在的情况下row 1，代码应返回row 3。在的情况下row 5，代码应返回row 6。最终，我想删除“反向”行。

真实数据集有 50 万行和 2 列。目前我正在使用这段代码，它完成了这项工作：

require(foreach)
require(doMC)
registerDoMC(4)
rm.idx <- c()
rm.idx <- foreach(i=1:nrow(DT), .combine = 'c')%dopar%{
       if (!(i %in% rm.idx)) which(DT[i,1] == DT[,2] & DT[i,2] == DT[,1])
}

Run Code Online (Sandbox Code Playgroud)

代码“返回”一个向量 ( rm.idx)，其中包含前一行的反向版本的那些行的索引。

但是，对于相对“小”的数据集需要很长时间（超过 30 分钟）。我经常发现 R 有一些调整或一些功能可以更快地完成技巧（或者，我的代码效率不高）。因此，我想知道是否有人知道查找与前一行相反的行的更快方法。

在此先感谢您的时间。

Answer 1

Lau*_*riK 5

要找到这些，您可以使用一些 data.table 函数，如下所示：

> dt <- data.table(V1 = c("A", "A", "B", "B", "N","P"), V2 = c("B","C","A","F","P","N"))
> dt
   V1 V2
1:  A  B
2:  A  C
3:  B  A
4:  B  F
5:  N  P
6:  P  N
> dt1 <- dt[, paste0(V1, V2)]
> dt1
[1] "AB" "AC" "BA" "BF" "NP" "PN"
> dt2 <- dt[, paste0(V2, V1)]
> dt2
[1] "BA" "CA" "AB" "FB" "PN" "NP"
> matches <- data.table(m = match(dt1, dt2))
> matches
    m
1:  3
2: NA
3:  1
4: NA
5:  6
6:  5
> which(matches[, .I > m])
[1] 3 6

Run Code Online (Sandbox Code Playgroud)

我正在使用该match()功能，它非常快。所以首先我将它们以两种方式制作成字符向量。然后我第一次找到第一个字符向量在第二个字符向量中的位置（我知道这是一个令人困惑的句子）。我想让结果再次成为 data.table 以利用.I那里。我制作了一个包含 600 000 行的 data.table，所有这些都在不到一秒钟的时间内完成。

嗨劳里克。谢谢。评论中有人指出另一个答案也解决了我的问题。我把它附在这里以防万一对你有用。与您的方法非常相似：http://stackoverflow.com/questions/22756392/deleting-reversed-duplicates-with-r。再次感谢。 (2认同)

归档时间：	11 年前
查看次数：	94 次
最近记录：	11 年前