加速For large for large dataframe

Question

加速For large for large dataframe

jgr*_*nb1 2 performance for-loop r data.table

我有一个非常大的数据框,我的目标是按用户ID列出累计美元.数据框看起来像这样,但它要大得多:

dt<-sample(seq(as.Date("2013-01-01"),as.Date("2013-05-01"),by="days"),10)
s<-c(rep(5252525,5),rep(1313131,5))
usd<-round(rnorm(10,100),2)
money<-data.frame(dt,s,usd)
money<-money[order(money$dt),]
money$Cumulative<-NA
users<-unique(money$s)

Run Code Online (Sandbox Code Playgroud)

我开始使用for循环,但速度非常慢:

for (i in 1:length(users)){
    temp=which(money$s==users[i])
    money$Cumulative[temp]=cumsum(money$usd[temp])
}

Run Code Online (Sandbox Code Playgroud)

我在StackOverflow上读到我可以使用data.table来提高整体速度,这有点帮助:

money<-data.table(money)
setkey(money,s)

for (i in 1:length(users)){
    temp=which(money$s==users[i])
    money$Cumulative[temp]=cumsum(money$usd[temp])
}

Run Code Online (Sandbox Code Playgroud)

我想让这个计算更快.接下来我该怎么办？

Answer 1

Jos*_*ich 5

由于money已经按dt列排序,您可以使用ave:

money$Cumulative <- ave(money$usd, money$s, FUN=cumsum)

Run Code Online (Sandbox Code Playgroud)

或者您可以使用data.table:

moneyDT <- as.data.table(money[,1:3])
moneyDT[,cumulative := cumsum(usd), by=s]

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，5 月前
查看次数：	136 次
最近记录：	12 年，5 月前