mrc*_*vin 8 r reshape reshape2
根据我的阅读,*reshape2中的演员操作失去了他们的result_variable功能.Hadley暗示为此目的使用plyr(将多个结果列附加到输入数据框).我怎么才能实现文档示例......
aqm <- melt(airquality, id=c("month", "day"), na.rm=TRUE)
cast(aqm, month ~ variable + result_variable, range)
Run Code Online (Sandbox Code Playgroud)
使用reshape2(dcast)和plyr(ddply)?
Din*_*nre 13
由于'reshape2'和'plyr'包的灵活性,这个问题有多个答案.我将在这里展示一个最容易理解的例子:
library(reshape2)
library(plyr)
aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")
dcast(aqm_melt, Month ~ variable + variable2)
# Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min Temp_max
# 1 5 1 115 8 334 5.7 20.1 56 81
# 2 6 12 71 31 332 1.7 20.7 65 93
# 3 7 7 135 7 314 4.1 14.9 73 92
# 4 8 9 168 24 273 2.3 15.5 72 97
# 5 9 7 96 14 259 2.8 16.6 63 93
Run Code Online (Sandbox Code Playgroud)
第1步:让我们将其分解为几个步骤.首先,让我们单独留下'aqm'的定义,并根据融化的数据进行处理.这将使示例更容易理解.
aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)
# Month Day variable value
# 1 5 1 Ozone 41.0
# 2 5 2 Ozone 36.0
# 3 5 3 Ozone 12.0
# 4 5 4 Ozone 18.0
# ...
# 612 9 30 Temp 68.0
Run Code Online (Sandbox Code Playgroud)
第2步:现在,我们要将'value'列替换为'min'和'max'列.我们可以使用'plyr'包中的'ddply'函数来实现这一点.为此,我们使用'ddply'函数(数据帧作为输入,数据帧作为输出,因此"dd"-ply).我们首先指定数据.
ddply(aqm,
Run Code Online (Sandbox Code Playgroud)
然后我们指定要用于对数据进行分组的变量,'月'和'变量'.我们使用.函数直接引用这个变量,而不是引用它们包含的值.
ddply(aqm, .(Month, variable),
Run Code Online (Sandbox Code Playgroud)
现在我们需要选择一个聚合函数.我们在summarize这里选择函数,因为我们有列('Day'和'value')我们不希望包含在最终数据中.该summarize函数将删除所有原始的非分组列.
ddply(aqm, .(Month, variable), summarize,
Run Code Online (Sandbox Code Playgroud)
最后,我们指定要为每个组执行的计算.我们可以参考原始数据框('aqm')的列,即使它们不会包含在我们的最终数据框中.这是它的样子:
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))
# Month variable min max
# 1 5 Ozone 1.0 115.0
# 2 5 Solar.R 8.0 334.0
# 3 5 Wind 5.7 20.1
# 4 5 Temp 56.0 81.0
# 5 6 Ozone 12.0 71.0
# 6 6 Solar.R 31.0 332.0
# 7 6 Wind 1.7 20.7
# 8 6 Temp 65.0 93.0
# 9 7 Ozone 7.0 135.0
# 10 7 Solar.R 7.0 314.0
# 11 7 Wind 4.1 14.9
# 12 7 Temp 73.0 92.0
# 13 8 Ozone 9.0 168.0
# 14 8 Solar.R 24.0 273.0
# 15 8 Wind 2.3 15.5
# 16 8 Temp 72.0 97.0
# 17 9 Ozone 7.0 96.0
# 18 9 Solar.R 14.0 259.0
# 19 9 Wind 2.8 16.6
# 20 9 Temp 63.0 93.0
Run Code Online (Sandbox Code Playgroud)
第3步:我们可以看到数据大大减少了,因为ddply函数聚合了这些行.现在我们需要再次融合数据,因此我们可以获得最终数据框的第二个变量.请注意,我们需要指定一个新variable.name参数,因此我们没有两个名为"variable"的列.
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")
# Month variable variable2 value
# 1 5 Ozone min 1.0
# 2 5 Solar.R min 8.0
# 3 5 Wind min 5.7
# 4 5 Temp min 56.0
# 5 6 Ozone min 12.0
# ...
# 37 9 Ozone max 96.0
# 38 9 Solar.R max 259.0
# 39 9 Wind max 16.6
# 40 9 Temp max 93.0
Run Code Online (Sandbox Code Playgroud)
第4步:我们最终可以将数据转换为最终形式.
dcast(aqm_melt, Month ~ variable + variable2)
# Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min Temp_max
# 1 5 1 115 8 334 5.7 20.1 56 81
# 2 6 12 71 31 332 1.7 20.7 65 93
# 3 7 7 135 7 314 4.1 14.9 73 92
# 4 8 9 168 24 273 2.3 15.5 72 97
# 5 9 7 96 14 259 2.8 16.6 63 93
Run Code Online (Sandbox Code Playgroud)
希望这个例子能让你有足够的理解来帮助你入门.请注意,"plyr"包的一个新的数据帧优化版本的名称为"dplyr"下正在积极地开发,所以你可能要准备好你的代码转换为新的包后,它变得更完全成熟.
我认为其他答案应该包括你如何使用"plyr"或"dplyr"(我会鼓励你继续朝这个方向看).
为了好玩,这里有一个包装器dcast,允许您指定多个功能.它不适用于返回多个值的函数(如range),它要求您使用命名的函数列表.
dcastMult <- function(data, formula, value.var = "value",
funs = list("min" = min, "max" = max)) {
require(reshape2)
if (is.null(names(funs)) | any(names(funs) == "")) stop("funs must be named")
Form <- formula(formula)
LHS <- as.character(Form[[2]])
if (length(LHS) > 1) LHS <- LHS[-1]
temp <- lapply(seq_along(funs), function(Z) {
T1 <- dcast(data, Form, value.var = value.var,
fun.aggregate=match.fun(funs[[Z]]), fill = 0)
Names <- !names(T1) %in% LHS
names(T1)[Names] <- paste(names(T1)[Names], names(funs)[[Z]], sep = "_")
T1
})
Reduce(function(x, y) merge(x, y), temp)
}
Run Code Online (Sandbox Code Playgroud)
它看起来有点乱,但结果是你可以坚持使用你熟悉的相同语法,同时使用多个聚合函数.参数的"名称" funs用作结果名称中的后缀.例如,可以按预期指定匿名函数maxSq = function(x) max(x)^2.
dcastMult(aqm, month ~ variable, value.var="value",
funs = list("min" = min, "max" = max))
# month ozone_min solar.r_min wind_min temp_min ozone_max solar.r_max wind_max temp_max
# 1 5 1 8 5.7 56 115 334 20.1 81
# 2 6 12 31 1.7 65 71 332 20.7 93
# 3 7 7 7 4.1 73 135 314 14.9 92
# 4 8 9 24 2.3 72 168 273 15.5 97
# 5 9 7 14 2.8 63 96 259 16.6 93
Run Code Online (Sandbox Code Playgroud)