按组汇总data.table

thi*_*oso 6 aggregate r mean data.table

我正在使用R中的一个巨大的数据表,其中包含不同来源的多个位置的每月温度测量值.

数据集如下所示:

library(data.table)

# Generate random data:
loc <- 1:10
dates <- seq(as.Date("2000-01-01"), as.Date("2004-12-31"), by="month")
mods <- c("A","B", "C", "D", "E")
temp <- runif(length(loc)*length(dates)*length(mods), min=0, max=30)
df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp)
Run Code Online (Sandbox Code Playgroud)

所以基本上,对于位置1,我从模型A到2000年1月到2004年12月进行测量.然后,我对模型B进行了测量.对于模型C,D和E进行测量等等.然后,对于位置2进行测量到位置10.

我需要做的是,不是进行五种不同的温度测量(来自模型),而是采用所有模型的平均温度.

因此,对于每个位置和每个日期,我不会有五个但只有一个温度测量值(这将是一个多模型的平均值).

我试过这个:

df2 <- df[, Mean:=mean(Temperature), by=list(Model, Location, Date)]
Run Code Online (Sandbox Code Playgroud)

这没有按照我的预期工作.我至少期望得到的数据表是原始表的行数的1/5,因为我将五个测量值总结为一个.

我究竟做错了什么?

bgo*_*dst 11

我认为您没有正确生成测试数据.该函数expand.grid()采用所有参数的笛卡尔积.我不确定你为什么把这个Temperature=temp论点包含在expand.grid()电话中; 这会复制每个单一组合键的每个温度值,从而产生一个包含900万行的data.table(这是(10*60*5)^2).我认为你想要每个键一个温度值,这应该导致10*60*5行:

df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp);
df;
##       Location       Date Model Temperature
##    1:        1 2000-01-01     A    2.469751
##    2:        2 2000-01-01     A   16.103135
##    3:        3 2000-01-01     A    7.147051
##    4:        4 2000-01-01     A   10.301937
##    5:        5 2000-01-01     A   16.760238
##   ---
## 2996:        6 2004-12-01     E   26.293968
## 2997:        7 2004-12-01     E    8.446528
## 2998:        8 2004-12-01     E   29.003001
## 2999:        9 2004-12-01     E   12.076765
## 3000:       10 2004-12-01     E   28.410980
Run Code Online (Sandbox Code Playgroud)

如果这是正确的,您可以使用以下方法生成跨模型的均值:

df[,.(Mean=mean(Temperature)),.(Location,Date)];
##      Location       Date      Mean
##   1:        1 2000-01-01  9.498497
##   2:        2 2000-01-01 11.744622
##   3:        3 2000-01-01 15.691228
##   4:        4 2000-01-01 11.457154
##   5:        5 2000-01-01  8.897931
##  ---
## 596:        6 2004-12-01 17.587000
## 597:        7 2004-12-01 19.555963
## 598:        8 2004-12-01 15.710465
## 599:        9 2004-12-01 15.322790
## 600:       10 2004-12-01 20.240392
Run Code Online (Sandbox Code Playgroud)

请注意,:=运算符实际上并未汇总.它只添加,修改或删除原始data.table中的列.可以使用聚合计算的重复添加新列(或覆盖旧列)(例如,请参阅http://www.r-bloggers.com/two-of-my-favorite-data-table-features/),但那不是你想要的.

通常,在聚合数据表时,您必须生成一个表,每个聚合键减少到一行.该:=运营商不这样做.

相反,我们需要对data.table运行一个普通的索引操作,按所需的聚合键进行分组(它将自动包含在输出data.table中),并j为每个组添加一次将被评估的参数.结果将是原始表的简化版本,所有j参数评估的结果与其各自的聚合键合并.由于我们的j参数导致每个组的标量值,因此我们的结果将是每行Location/ Date聚合键一行.

  • @bgoldst非常感谢你的回答.事实上,我在模拟数据时犯了一个错误.你建议的命令产生了我期望的输出,你的解释帮助我更好地理解了数据表的工作方式.我非常感激. (4认同)
  • OP表示他希望对每个位置和日期进行一次温度测量,表示该位置/日期组合的所有模型的平均值.我们不应该按模型分组. (3认同)
  • 您关于“:=”运算符的注释特别有帮助。 (2认同)