按行具有相同名称的列的行总和

Question

按行具有相同名称的列的行总和

我有一个数据框,其中几列可能具有相同的名称.在这个小例子中,列"A"和"G"都出现两次:

    A  C  G  A  G  T
1   1 NA NA NA  1 NA
2   1 NA  5  3  1 NA
3  NA  1 NA NA NA  1
4  NA NA  1  2 NA NA
5  NA NA  1  1 NA NA
6  NA  1 NA NA NA  1
7  NA  1 NA NA NA  1

Run Code Online (Sandbox Code Playgroud)

我希望创建一个每列名称一列的数据集.对于每一行,应使用sum(..., na.rm = TRUE)每个列名称中值的sum()替换各列值.例如,在第二行中,应替换两个单独的"A"值(1和3)4.我事先并不知道多次出现哪些列名.

预期的输出将是:

#     A  C  G  T
# 1   1  0  1  0
# 2   4  0  6  0
# 3   0  1  0  1
# 4   2  0  1  0
# 5   1  0  1  0
# 6   0  1  0  1
# 7   0  1  0  1

Run Code Online (Sandbox Code Playgroud)

所以我想我可以这样做:

noms = colnames(dat)
for(x in noms[duplicated(noms)]) {
  dat[ , x] = rowSums(dat[ , x == noms], na.rm = TRUE)
}
dat = dat[,!duplicated(noms)]

Run Code Online (Sandbox Code Playgroud)

但这有点笨拙,因为循环意味着邪恶.有没有办法更简单地做到这一点？

Answer 1

mto*_*oto 9

我们可以转换dat,计算rowsum每组(colnames原始dat),然后将结果转换回原始结构.

t(rowsum(t(dat), group = colnames(dat), na.rm = T))
#  A C G T
#1 1 0 1 0
#2 4 0 6 0
#3 0 1 0 1
#4 2 0 1 0
#5 1 0 1 0
#6 0 1 0 1
#7 0 1 0 1

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年前
查看次数：	2344 次
最近记录：	6 年，11 月前