在dplyr中创建新的索引/重新索引

Question

在dplyr中创建新的索引/重新索引

Joh*_*ohn 3 indexing r data-manipulation dplyr

我在R中使用dplyr表.典型字段是主键,标识组的id号,日期字段和一些值.有些数字我做了一些操作,在一些初步步骤中抛出了大量数据.

为了进行我的分析的下一步(在MC Stan中),如果日期和组ID字段都是整数索引会更容易.所以基本上,我需要将它们重新索引为1之间的整数和不同元素的总数(对于group_id约为750,对于date_id约为250,group_id已经是整数,但日期不是).将它导出到数据框后,这是相对简单的做法,但我很好奇是否可以在dplyr中.

我尝试创建一个新的date_val(名为date_val_new)如下.根据评论中的讨论,我有一些假数据.我有目的地使组和日期值不是1,但我没有把日期作为实际日期.我使数据不平衡,删除一些值来说明问题.无论date_val是什么,dplyr命令都会为每个新组重新启动索引为1.因此即使日期不同,每组也从1开始.

df1 <- data.frame(id = 1:40,
              group_id = (10 + rep(1:10, each = 4)),
              date_val = (20 + rep(rep(1:4), 10)),
              val = runif(40))
for (i in c(5, 17, 33))
{
    df1 <- df1[!df1$id == i, ]
}

df_new <- df1 %>%
            group_by(group_id) %>%
            arrange(date_val) %>%
            mutate(date_val_new=row_number(group_id)) %>%
            ungroup()

Run Code Online (Sandbox Code Playgroud)

Answer 1

Fra*_*ank 7

这是基本的R方法:

df1 %>% mutate(date_val_new = match(date_val, unique(date_val)))

Run Code Online (Sandbox Code Playgroud)

或者使用data.table , df1[, date_val_new := .GRP, by=date_val].

Answer 2

Ste*_*pré 5

使用group_indices_()生成每个组的唯一ID:

df1 %>% mutate(date_val_new = group_indices_(., .dots = "date_val"))

Run Code Online (Sandbox Code Playgroud)

更新

由于group_indices()不处理类tbl_postgres,你可以试试dense_rank()

copy_to(my_db, df1, name = "df1")
tbl(my_db, "df1") %>% 
  mutate(date_val_new = dense_rank(date_val))

Run Code Online (Sandbox Code Playgroud)

或者使用构建自定义查询 sql()

tbl(my_db, sql("SELECT *, 
               DENSE_RANK() OVER (ORDER BY date_val) AS DATE_VAL_NEW
               FROM df1"))

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，6 月前
查看次数：	4717 次
最近记录：	10 年，6 月前