仅从 data.frame 中的某些选定列返回包含最大值的列的名称

Question

仅从 data.frame 中的某些选定列返回包含最大值的列的名称

我想获取（在 data.table 的新列中）包含 data.frame 中仅几列中的最大值的列的列名。

这是一个示例 data.frame

# creating the vectors then the data frame ------
id = c("a", "b", "c", "d")
 ignore = c(1000,1000, 1000, 1000) 
 s1 = c(0,0,0,100)
s2 = c(100,0,0,0)
s3 = c(0,0,50,0)
s4 = c(50,0,50,0)
 df1 <- data.frame(id,ignore,s1,s2,s3,s4)

Run Code Online (Sandbox Code Playgroud)

(1) 现在我想从 s1-s4 列中找到每行中最大数字的列名。（即忽略名为“忽略”的列）

(2) 如果最大值并列，我希望返回最后一个（例如 s4）列名。

(3) 作为一个额外的好处 - 如果都是 0，我希望 NA 返回

这是我迄今为止最好的尝试

df2 <- cbind(df1,do.call(rbind,apply(df1,1,function(x) {data.frame(max.col.name=names(df1)[which.max(x)],stringsAsFactors=FALSE)})))

Run Code Online (Sandbox Code Playgroud)

这在每种情况下都会返回忽略，并且（b 行除外）如果我删除此列，并将 s1-s4 列重新排序为 s4-s1，则有效。

你会如何处理这个问题？

确实非常感谢。

Answer 1

akr*_*run 1

我们用来grep为以“s”开头后跟数字（“i1”）的列创建列索引。要获取具有最大值的子集数据集（'df1[i1]'）的行索引，我们可以max.col与选项一起使用ties.method='last'。要将只有 0 值的行转换为 NA，我们得到rowSums，检查它是否为 0 ( ==0) 并将其转换为NA( NA^) 并与max.col输出相乘。这可用于提取子集数据集的列名称。

i1 <- grep('^s\\d+', names(df1))
names(df1)[i1][max.col(df1[i1], 'last')*NA^(rowSums(df1[i1])==0)]
#[1] "s2" NA   "s4" "s1"

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，4 月前
查看次数：	1801 次
最近记录：	5 年，9 月前