如何改进这个算法?

Pep*_*iCo 5 r

R版本2.11.1在Windows 7上为32位

我得到数据train.txt如下:

USER_A USER_B ACTION
1        7      0
1        8      1
2        6      2
2        7      1
3        8      2
Run Code Online (Sandbox Code Playgroud)

我将数据作为以下算法处理:

train_data=read.table("train.txt",header=T)
result=matrix(0,length(unique(train_data$USER_B)),2)
result[,1]=unique(train_data$USER_B)
for(i in 1:dim(result)[1])
{
    temp=train_data[train_data$USER_B%in%result[i,1],]
    result[i,2]=sum(temp[,3])/dim(temp)[1]
}
Run Code Online (Sandbox Code Playgroud)

结果是train_data中每个USER_B的得分.分数定义为:

得分USER_B =(USER_B的所有行动的总和)/(USER_B的推荐时间)

但是train_data非常大,我可能需要三天才能完成这个程序,所以我来这里寻求帮助,这个算法可以改进吗?

And*_*rie 6

运行您的示例,您希望的结果是计算每个唯一USER_B的平均ACTION:

     [,1] [,2]
[1,]    7  0.5
[2,]    8  1.0
[3,]    6  2.0
Run Code Online (Sandbox Code Playgroud)

您可以使用ddply()包中的函数使用一行代码执行此操作plyr

library(plyr)
ddply(train_data[, -1], .(USER_B), numcolwise(mean))

  USER_B ACTION
1      6    2.0
2      7    0.5
3      8    1.0
Run Code Online (Sandbox Code Playgroud)

或者,tapply基数R中的函数也是如此:

tapply(train_data$ACTION, train_data$USER_B, mean)
Run Code Online (Sandbox Code Playgroud)

根据表的大小,您可以将执行时间提高20倍或更高.以下是具有一百万个条目的data.frame的system.time测试.你的算法需要116秒,ddply()需要5.4秒,tapply需要1.2秒:

train_data <- data.frame(
        USER_A = 1:1e6,
        USER_B = sample(1:1e3, size=1e6, replace=TRUE),
        ACTION = sample (1:100, size=1e6, replace=TRUE))

yourfunction <- function(){
    result <- matrix(0,length(unique(train_data$USER_B)),2)
    result[,1] <- unique(train_data$USER_B);
    for(i in 1:dim(result)[1]){     
        temp=train_data[train_data$USER_B%in%result[i,1],]
        result[i,2]=sum(temp[,3])/dim(temp)[1]
    }
    result
}

system.time(XX <- yourfunction())
   user  system elapsed 
 116.29   14.04  134.33 

system.time(YY <- ddply(train_data[, -1], .(USER_B), numcolwise(mean)))
   user  system elapsed 
   5.43    1.60    7.19 

system.time(ZZ <- tapply(train_data$ACTION, train_data$USER_B, mean))
   user  system elapsed 
   1.17    0.06    1.25 
Run Code Online (Sandbox Code Playgroud)


Rei*_*son 5

除了@Andrie提供的方法之外,split()当时的lapply()方法还是更快:

> system.time(ZZ <- tapply(train_data$ACTION, train_data$USER_B, mean))
   user  system elapsed 
  1.025   0.011   1.062 
> system.time(WW <- unlist(lapply(split(train_data$ACTION, 
+                                       f = train_data$USER_B), 
+                          mean)))
   user  system elapsed 
  0.465   0.007   0.483
Run Code Online (Sandbox Code Playgroud)

sapply() 对于这个问题也同样快:

> system.time(SS <- sapply(split(train_data$ACTION, f = train_data$USER_B), 
+                          mean))
   user  system elapsed 
  0.469   0.001   0.474
Run Code Online (Sandbox Code Playgroud)