删除跨几列的重复值但保留行

Question

删除跨几列的重复值但保留行

我有一个看起来像这样的数据框：

dat <- data.frame(id=1:6,
                  z_1=c(100,290,38,129,0,290),
                  z_2=c(20,0,0,0,0,290),
                  z_3=c(0,0,38,0,0,98),
                  z_4=c(0,0,38,127,38,78),
                  z_5=c(23,0,25,0,0,98),
                  z_6=c(100,0,25,127,0,9))

Run Code Online (Sandbox Code Playgroud)

dat

  id z_1 z_2 z_3 z_4 z_5 z_6
1  1 100 20  0   0   23  100
2  2 290  0  0   0   0   0
3  3  38  0  38  38  25  25
4  4 129  0  0   127 0   127
5  5   0  0  0   38  0   0
6  6 290 290 98  78  98  9

Run Code Online (Sandbox Code Playgroud)

我想删除z_x每一行的重复值，用 a0或替换任何重复值NA，但保持行和列完好无损（即不删除任何）。这里的 0 不算作重复，它们是缺失值。列中的重复值是可以的。我的理想输出如下所示：

   id z_1 z_2 z_3 z_4 z_5 z_6
1  1  100 20  0   0   23  0
2  2  290 0   0   0   0   0
3  3  38  0   0   0   25  0
4  4  129 0   0   127 0   0
5  5   0  0   0   38  0   0
6  6  290 0   98  78  0   9

Run Code Online (Sandbox Code Playgroud)

我真的不在乎z_xs 中的值出现的顺序，所以如果它们四处移动也没关系。有没有一种有效的方法可以做到这一点，最好以某种整洁的方式？我知道我可以旋转更长的时间并删除重复的行，但我的数据集非常大，我正在寻找一种无需旋转的方法。

Answer 1

Ron*_*hah 5

基本 R 方式使用apply：

cols <- grep('z_\\d+', names(dat))
dat[cols] <- t(apply(dat[cols], 1, function(x)  replace(x, duplicated(x), 0)))

#  id z_1 z_2 z_3 z_4 z_5 z_6
#1  1 100  20   0   0  23   0
#2  2 290   0   0   0   0   0
#3  3  38   0   0   0  25   0
#4  4 129   0   0 127   0   0
#5  5   0   0   0  38   0   0
#6  6 290   0  98  78   0   9

Run Code Online (Sandbox Code Playgroud)

tidyverse无需重塑的方式可以使用pmap：

library(tidyverse)

dat %>%
  mutate(result = pmap(select(., matches('z_\\d+')), ~{
    x <- c(...)
    replace(x, duplicated(x), 0)
    })) %>%
  select(id, result) %>%
  unnest_wider(result)

Run Code Online (Sandbox Code Playgroud)

由于@thelatemail 执行的测试表明，与按行处理数据相比，重塑是更好的选择，因此您可能需要考虑它。

dat %>%
  pivot_longer(cols = matches('z_\\d+')) %>%
  group_by(id) %>%
  mutate(value = replace(value, duplicated(value), 0)) %>%
  pivot_wider()

Run Code Online (Sandbox Code Playgroud)

从快速测试来看，在 2M 记录上再次长然后宽是 < 1 秒，“apply”是 15 秒，“pmap”一分钟后我就杀死了它，但没有完成。 (2认同)

归档时间：	4 年，11 月前
查看次数：	60 次
最近记录：	4 年，11 月前