R - 按组将数据转换和转置为列

mil*_*ske 0 r reshape reshape2

在通过尝试 tidyr、reshape、spread 等努力解决这个挑战几个小时后,我将非常感谢 R 专家的帮助。

对于具有不同组和分配值的数据框,有没有办法转换和转置数据框,以便将每个组分配给一个新列,并且所有分配的值都列在该组下?

以下是数据框的一些示例代码:

a <- c("Group1", "Group1", "Group1", "Group2", "Group2", "Group2", "Group2", "Group2", "Group3")
b <- c("Item1", "Item2", "Item3", "Item4", "Item5", "Item6", "Item7", "Item8", "Item9") 
Run Code Online (Sandbox Code Playgroud)

使用这两列,为每个组创建一个新列。

下面,我手动展示了这一点,但需要 R 来自动化下一步。

我手动包含“--”以避免错误“data.frame 中的错误:参数意味着不同的行数”。实际上,我无法为每个组添加“--”。

Group1 <- c("Item1", "Item2", "Item3", "--", "--")
Group2 <- c("Item4", "Item5", "Item6", "Item7", "Item8")
Group3 <- c("Item9", "--", "--", "--", "--")
Run Code Online (Sandbox Code Playgroud)

下面,这是我试图创建的输出。

table <- data.frame(Group1, Group2, Group3)
Run Code Online (Sandbox Code Playgroud)

挑战在于变量必须是动态的。对于不同的数据集,组数和项目数会发生变化,我无法手动为每个组中的空白设置“--”。

这个问题与这个问题相似,除了我的问题涉及动态范围。 将数据框公共行转换为列

Mau*_*ers 7

我们可以用 tidyr::spread

library(tidyverse)
df %>% group_by(a) %>% mutate(n = 1:n()) %>% spread(a, b) %>% select(-n)
## A tibble: 5 x 3
#  Group1 Group2 Group3
#  <fct>  <fct>  <fct>
#1 Item1  Item4  Item9
#2 Item2  Item5  NA
#3 Item3  Item6  NA
#4 NA     Item7  NA
#5 NA     Item8  NA
Run Code Online (Sandbox Code Playgroud)

或者,如果您愿意"--"而不是NA可以这样做(感谢@AntoniosK)

df %>%
    group_by(a) %>%
    mutate(n = 1:n()) %>%
    spread(a, b) %>%
    select(-n) %>%
    mutate_all(~ifelse(is.na(.), "--", as.character(.)))
## A tibble: 5 x 3
#  Group1 Group2 Group3
#  <chr>  <chr>  <chr>
#1 Item1  Item4  Item9
#2 Item2  Item5  --
#3 Item3  Item6  --
#4 --     Item7  --
#5 --     Item8  --
Run Code Online (Sandbox Code Playgroud)

或使用tidyr::spreadsfill参数

df %>%
    mutate_if(is.factor, as.character) %>%
    group_by(a) %>%
    mutate(n = 1:n()) %>%
    spread(a, b, fill = "--") %>%
    select(-n)
Run Code Online (Sandbox Code Playgroud)

给出相同的结果。


样本数据

a <- c("Group1", "Group1", "Group1", "Group2", "Group2", "Group2", "Group2", "Group2", "Group3")
b <- c("Item1", "Item2", "Item3", "Item4", "Item5", "Item6", "Item7", "Item8", "Item9")
df <- data.frame(a = a, b = b)
Run Code Online (Sandbox Code Playgroud)