如何加速“独特”数据框搜索

Pet*_*ete 5 performance search r unique

我有一个数据框,其尺寸为 2377426 行 x 2 列,如下所示:

                   Name                                            Seq
428293 ENSE00001892940:ENSE00001929862 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
431857 ENSE00001892940:ENSE00001883352 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
432253 ENSE00001892940:ENSE00003623668 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
436213 ENSE00001892940:ENSE00003534967 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
429778 ENSE00001892940:ENSE00002409454 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAGCTGGGAACCTTTGCTCAAAGCTCC
431263 ENSE00001892940:ENSE00001834214 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAGCTGGGAACCTTTGCTCAAAGCTCC
Run Code Online (Sandbox Code Playgroud)

第一列(名称)中的所有值都是唯一的,但“Seq”列中有许多重复项。我想要一个仅包含唯一序列和名称的 data.frame 。我尝试过独特,但这太慢了。我还尝试订购数据库并使用以下代码:

dat_sorted = data[order(data$Seq),]
    m = dat_sorted[1,]
    x =1;for(i in 1:length(dat_sorted[,1])){if(dat_sorted[i,2]!=m[x,2]){x=x+1;m[x,]=dat_sorted[i,]}}
Run Code Online (Sandbox Code Playgroud)

这又太慢了!有没有一种更快的方法可以在数据帧的一列中找到唯一值?

Sve*_*ein 5

data[!duplicated(data$Seq), ]
Run Code Online (Sandbox Code Playgroud)

应该可以解决问题。