分组函数(tapply,by,aggregate)和*apply系列

Question

分组函数(tapply,by,aggregate)和*apply系列

gra*_*tur 1011 r lapply sapply r-faq tapply

每当我想在R中做一些"map"py时,我通常会尝试使用一个函数 apply家族中.

但是,我从来没有完全理解它们之间的区别 - 如何{ sapply,lapply等}将函数应用于输入/分组输入,输出将是什么样的,甚至输入可以是什么 - 所以我经常只要仔细检查它们,直到我得到我想要的东西.

有人可以解释如何使用哪一个？

我当前(可能不正确/不完整)的理解是......

sapply(vec, f):输入是一个向量.output是一个向量/矩阵,其中element i是f(vec[i])一个矩阵,如果f有一个多元素输出
lapply(vec, f):相同sapply,但输出是一个列表？
apply(matrix, 1/2, f):输入是一个矩阵.output是一个向量,其中element i是f(矩阵的row/col i)
tapply(vector, grouping, f):output是一个矩阵/数组,其中矩阵/数组中的元素是向量f分组g的值,和g被推送到行/列名称
by(dataframe, grouping, f):让我们g成为一个分组.适用f于组/数据框的每一列.漂亮打印分组和f每列的值.
aggregate(matrix, grouping, f):类似于by,但不是将输出打印得很漂亮,而是将所有内容都粘贴到数据帧中.

侧问题:我还没有学会plyr或重塑-将plyr或reshape更换所有这些完全？

Answer 1

jor*_*ran 1295

R具有许多*应用功能,这些功能在帮助文件中有很好的描述(例如?apply).但是,他们已经足够了,开始使用R可能很难决定哪一个适合他们的情况甚至记住它们.他们可能会有一个普遍的感觉,"我应该在这里使用*apply函数",但最初要保持一致是很困难的.

尽管事实(在其他答案中已经注明),*apply系列的大部分功能都被极受欢迎的plyr软件包所覆盖,但基本功能仍然有用且值得了解.

这个答案旨在作为一种新的useRs 的路标,以帮助指导他们针对他们的特定问题正确的*应用功能.注意,这不是为了简单地反刍或替换R文档!希望这个答案可以帮助您确定哪种*应用功能适合您的情况,然后由您来进一步研究.除了一个例外,性能差异将无法解决.

apply - 当您想要将函数应用于矩阵的行或列(以及更高维的类似物)时; 通常不建议使用数据帧,因为它会首先强制转换为矩阵.

# Two dimensional matrix
M <- matrix(seq(1,16), 4, 4)

# apply min to rows
apply(M, 1, min)
[1] 1 2 3 4

# apply max to columns
apply(M, 2, max)
[1]  4  8 12 16

# 3 dimensional array
M <- array( seq(32), dim = c(4,4,2))

# Apply sum across each M[*, , ] - i.e Sum across 2nd and 3rd dimension
apply(M, 1, sum)
# Result is one-dimensional
[1] 120 128 136 144

# Apply sum across each M[*, *, ] - i.e Sum across 3rd dimension
apply(M, c(1,2), sum)
# Result is two-dimensional
     [,1] [,2] [,3] [,4]
[1,]   18   26   34   42
[2,]   20   28   36   44
[3,]   22   30   38   46
[4,]   24   32   40   48

归档时间：	15 年，4 月前
查看次数：	386254 次
最近记录：	7 年，2 月前

分组函数(tapply,by,aggregate)和*apply系列

通过

骨料