对于每一行,返回最大值的列名

我有一个员工名单,我需要知道他们最常在哪个部门.将员工ID与部门名称制表是微不足道的,但从频率表中返回部门名称而不是名册数量是很棘手的.下面是一个简单示例(列名=部门,行名=员工ID).

DF <- matrix(sample(1:9,9),ncol=3,nrow=3)
DF <- as.data.frame.matrix(DF)
> DF
  V1 V2 V3
1  2  7  9
2  8  3  6
3  1  5  4

Run Code Online (Sandbox Code Playgroud)

现在我该怎么办？

> DF2
  RE
1 V3
2 V1
3 V2

Run Code Online (Sandbox Code Playgroud)

使用您的数据的一个选项(供将来参考,用于set.seed()使用可sample重复的示例):

DF <- data.frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(9,6,4))

colnames(DF)[apply(DF,1,which.max)]
[1] "V3" "V1" "V2"

Run Code Online (Sandbox Code Playgroud)

比使用更快的解决方案apply可能是max.col:

colnames(DF)[max.col(DF,ties.method="first")]
#[1] "V3" "V1" "V2"

Run Code Online (Sandbox Code Playgroud)

......哪里ties.method可以是"random" "first"或"last"

如果碰巧有两列等于最大值,这当然会引起问题.我不确定你想在那个实例中做什么,因为你会有一些行的结果.例如:

DF <- data.frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(7,6,4))
apply(DF,1,function(x) which(x==max(x)))

[[1]]
V2 V3 
 2  3 

[[2]]
V1 
 1 

[[3]]
V2 
 2

Run Code Online (Sandbox Code Playgroud)

@dmvianna - 使用 `which.max` 就可以了。 (2认同)
@PankajKaundal-假设值不同，那么`colnames（DF）[max.col（replace（DF，cbind（seq_len（nrow（DF）），max.col（DF，ties.method =“ first”）））， -Inf），“第一”）]` (2认同)

如果您对data.table解决方案感兴趣,请参阅此处.这有点棘手,因为你更喜欢获得第一个最大值的id.如果你想要最后的最大值,那就容易多了.然而,它并不复杂,而且速度快!

在这里,我生成了您的尺寸数据(26746*18).

数据

set.seed(45)
DF <- data.frame(matrix(sample(10, 26746*18, TRUE), ncol=18))

Run Code Online (Sandbox Code Playgroud)

`data.table` 回答:

require(data.table)
DT <- data.table(value=unlist(DF, use.names=FALSE), 
            colid = 1:nrow(DF), rowid = rep(names(DF), each=nrow(DF)))
setkey(DT, colid, value)
t1 <- DT[J(unique(colid), DT[J(unique(colid)), value, mult="last"]), rowid, mult="first"]

Run Code Online (Sandbox Code Playgroud)

标杆:

# data.table solution
system.time({
DT <- data.table(value=unlist(DF, use.names=FALSE), 
            colid = 1:nrow(DF), rowid = rep(names(DF), each=nrow(DF)))
setkey(DT, colid, value)
t1 <- DT[J(unique(colid), DT[J(unique(colid)), value, mult="last"]), rowid, mult="first"]
})
#   user  system elapsed 
#  0.174   0.029   0.227 

# apply solution from @thelatemail
system.time(t2 <- colnames(DF)[apply(DF,1,which.max)])
#   user  system elapsed 
#  2.322   0.036   2.602 

identical(t1, t2)
# [1] TRUE

Run Code Online (Sandbox Code Playgroud)

它在这些尺寸的数据上快了大约11倍,并且data.table也很好地扩展.

编辑:如果任何最大ID都没问题,那么:

DT <- data.table(value=unlist(DF, use.names=FALSE), 
            colid = 1:nrow(DF), rowid = rep(names(DF), each=nrow(DF)))
setkey(DT, colid, value)
t1 <- DT[J(unique(colid)), rowid, mult="last"]

Run Code Online (Sandbox Code Playgroud)

基于以上建议,以下data.table解决方案对我来说非常快:

library(data.table)

set.seed(45)
DT <- data.table(matrix(sample(10, 10^7, TRUE), ncol=10))

system.time(
  DT[, col_max := colnames(.SD)[max.col(.SD, ties.method = "first")]]
)
#>    user  system elapsed 
#>    0.15    0.06    0.21
DT[]
#>          V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 col_max
#>       1:  7  4  1  2  3  7  6  6  6   1      V1
#>       2:  4  6  9 10  6  2  7  7  1   3      V4
#>       3:  3  4  9  8  9  9  8  8  6   7      V3
#>       4:  4  8  8  9  7  5  9  2  7   1      V4
#>       5:  4  3  9 10  2  7  9  6  6   9      V4
#>      ---                                       
#>  999996:  4  6 10  5  4  7  3  8  2   8      V3
#>  999997:  8  7  6  6  3 10  2  3 10   1      V6
#>  999998:  2  3  2  7  4  7  5  2  7   3      V4
#>  999999:  8 10  3  2  3  4  5  1  1   4      V2
#> 1000000: 10  4  2  6  6  2  8  4  7   4      V1

Run Code Online (Sandbox Code Playgroud)

并且还具有以下优点:.SD通过在.SDcols以下方面提及它们,可以始终指定要考虑的列:

DT[, MAX2 := colnames(.SD)[max.col(.SD, ties.method="first")], .SDcols = c("V9", "V10")]

Run Code Online (Sandbox Code Playgroud)

如果我们需要最小值的列名,如@lwshang所建议,只需要使用-.SD:

DT[, col_min := colnames(.SD)[max.col(-.SD, ties.method = "first")]]

Run Code Online (Sandbox Code Playgroud)

一种解决方案是将日期从宽到长整形重整，将所有部门放在一列中，然后按雇主ID（在本例中为行号）进行分组，然后用最大值。也有两种方法可以处理这种关系。

library(tidyverse)

# sample data frame with a tie
df <- data_frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(9,6,5))

# If you aren't worried about ties:  
df %>% 
  rownames_to_column('id') %>%  # creates an ID number
  gather(dept, cnt, V1:V3) %>% 
  group_by(id) %>% 
  slice(which.max(cnt)) 

# A tibble: 3 x 3
# Groups:   id [3]
  id    dept    cnt
  <chr> <chr> <dbl>
1 1     V3       9.
2 2     V1       8.
3 3     V2       5.


# If you're worried about keeping ties:
df %>% 
  rownames_to_column('id') %>%
  gather(dept, cnt, V1:V3) %>% 
  group_by(id) %>% 
  filter(cnt == max(cnt)) %>% # top_n(cnt, n = 1) also works
  arrange(id)

# A tibble: 4 x 3
# Groups:   id [3]
  id    dept    cnt
  <chr> <chr> <dbl>
1 1     V3       9.
2 2     V1       8.
3 3     V2       5.
4 3     V3       5.


# If you're worried about ties, but only want a certain department, you could use rank() and choose 'first' or 'last'
df %>% 
  rownames_to_column('id') %>%
  gather(dept, cnt, V1:V3) %>% 
  group_by(id) %>% 
  mutate(dept_rank  = rank(-cnt, ties.method = "first")) %>% # or 'last'
  filter(dept_rank == 1) %>% 
  select(-dept_rank) 

# A tibble: 3 x 3
# Groups:   id [3]
  id    dept    cnt
  <chr> <chr> <dbl>
1 2     V1       8.
2 3     V2       5.
3 1     V3       9.

# if you wanted to keep the original wide data frame
df %>% 
  rownames_to_column('id') %>%
  left_join(
    df %>% 
      rownames_to_column('id') %>%
      gather(max_dept, max_cnt, V1:V3) %>% 
      group_by(id) %>% 
      slice(which.max(max_cnt)), 
    by = 'id'
  )

# A tibble: 3 x 6
  id       V1    V2    V3 max_dept max_cnt
  <chr> <dbl> <dbl> <dbl> <chr>      <dbl>
1 1        2.    7.    9. V3            9.
2 2        8.    3.    6. V1            8.
3 3        1.    5.    5. V2            5.

Run Code Online (Sandbox Code Playgroud)

一个`dplyr`解决方案：

主意：

将 rowids 添加为列
重塑为长格式
过滤每个组中的最大值

代码：

DF = data.frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(9,6,4))
DF %>% 
  rownames_to_column() %>%
  gather(column, value, -rowname) %>%
  group_by(rowname) %>% 
  filter(rank(-value) == 1)

Run Code Online (Sandbox Code Playgroud)

结果：

# A tibble: 3 x 3
# Groups:   rowname [3]
  rowname column value
  <chr>   <chr>  <dbl>
1 2       V1         8
2 3       V2         5
3 1       V3         9

Run Code Online (Sandbox Code Playgroud)

这种方法可以很容易地扩展到获得顶部n列。示例n=2：

DF %>% 
  rownames_to_column() %>%
  gather(column, value, -rowname) %>%
  group_by(rowname) %>% 
  mutate(rk = rank(-value)) %>%
  filter(rk <= 2) %>% 
  arrange(rowname, rk)

Run Code Online (Sandbox Code Playgroud)

结果：

# A tibble: 6 x 4
# Groups:   rowname [3]
  rowname column value    rk
  <chr>   <chr>  <dbl> <dbl>
1 1       V3         9     1
2 1       V2         7     2
3 2       V1         8     1
4 2       V3         6     2
5 3       V2         5     1
6 3       V3         4     2

Run Code Online (Sandbox Code Playgroud)

您能否评论一下这种方法与上面 sbha 的答案之间的区别？它们对我来说看起来差不多。 (3认同)

一种选择dplyr 1.0.0可能是：

DF %>%
 rowwise() %>%
 mutate(row_max = names(.)[which.max(c_across(everything()))])

     V1    V2    V3 row_max
  <dbl> <dbl> <dbl> <chr>  
1     2     7     9 V3     
2     8     3     6 V1     
3     1     5     4 V2

Run Code Online (Sandbox Code Playgroud)

在某些情况下，使用pmap()(requires purrr)可能更安全：

DF %>%
    mutate(row_max = pmap(across(everything()), ~ names(c(...)[which.max(c(...))])))

Run Code Online (Sandbox Code Playgroud)

样本数据：

DF <- structure(list(V1 = c(2, 8, 1), V2 = c(7, 3, 5), V3 = c(9, 6, 
4)), class = "data.frame", row.names = c(NA, -3L))

Run Code Online (Sandbox Code Playgroud)

@mikey如果你使用map_chr()，那么我返回一个字符向量。我更新了我的帖子:) (2认同)

归档时间：	12 年，6 月前
查看次数：	71408 次
最近记录：	6 年，10 月前

将data.frame列转换为向量？ 136

"*apply"系列真的没有矢量化吗？ 132

错误:找不到功能"单位" 78

在JAGS中以"计数过程"形式表示参数生存模型 65

按R中的因子着色图 27

loadNamespace(name)出错:没有名为'Rcpp'的包 18

数据集上的"子集"和"["给出的结果略有不同,为什么？ 17

Gitbook章目目录不按字母顺序排列 13

在geom_tile()/ geom_raster()中标记特定的tile 11

如何仅使用唯一ID执行累积和？ 10

JavaScript中使用"严格"做什么,背后的原因是什么？ 7339

使用JavaScript在新选项卡(而不是新窗口)中打开URL 1941

什么是Android上的"上下文"？ 1872

使用Git从先前的提交中分支 1658

如何避免JSP文件中的Java代码？ 1649

使用JavaScript/jQuery滚动到页面顶部？ 1511

在Visual Studio中使用Git 1452

如何在Android应用程序中的活动之间传递数据？ 1293

application/x-www-form-urlencoded或multipart/form-data？ 1268

如何以CSV格式输出MySQL查询结果？ 1118