我什么时候应该在我的代码中使用pandas apply()？

Question

我什么时候应该在我的代码中使用pandas apply()？

cs9*_*s95 68 python performance apply pandas

这是一个自我回答的QnA,旨在指导用户应用的缺陷和好处.

我已经看到很多关于Stack Overflow问题的答案涉及使用apply.我也看到用户评论他们说" apply很慢",应该避免".

我已经阅读了很多关于性能主题的文章,解释apply很慢.我还在文档中看到了一个关于如何apply简单地传递UDF的便利函数的免责声明(现在似乎无法找到).因此,普遍的共识是,apply如果可能,应该避免.但是,这引发了以下问题:

如果apply是如此糟糕,那为什么它在API中呢？
我应该如何以及何时制作我的代码apply- 免费？
是否有过任何地方的情况apply是不错的(比其他可能的解决方案更好)？

Answer 1

cs9*_*s95 65

`apply`,您永远不需要的便利功能

我们首先逐一解决OP中的问题.

如果DataFrame.apply是如此糟糕,那为什么它在API中呢？

Series.apply并且apply分别是在DataFrame和Series对象上定义的便捷函数.apply接受在DataFrame上应用转换/聚合的任何用户定义函数.apply实际上是一个银弹,无论现有的熊猫功能做什么都无法做到.

有些事情axis=1可以做:

在DataFrame或Series上运行任何用户定义的函数
在DataFrame上应用row-wise(axis=0)或column-wise(agg)函数
应用函数时执行索引对齐
使用用户定义的函数执行聚合(但是,我们通常更喜欢transform或result_type在这些情况下)
执行逐元素转换
将聚合结果广播到原始行(请参阅apply参数).
接受位置/关键字参数以传递给用户定义的函数.

......等等.有关更多信息,请参阅文档中的行或列方式函数应用程序.

那么,有了所有这些功能,为什么apply不好呢？这是因为apply很 慢.Pandas不对函数的性质做任何假设,因此必要时迭代地将函数应用于每一行/列.此外,处理上述所有情况意味着apply每次迭代都会产生一些重大开销.此外,apply消耗更多的内存,这对于内存限制的应用程序来说是一个挑战.

很少apply有适合使用的情况(更多内容见下文).如果你不确定是否应该使用apply,你可能不应该.

让我们来解决下一个问题.

我应该如何以及何时制作我的代码apply- 免费？

数字数据
如果您正在处理数字数据,可能已经有一个矢量化的cython函数,它正是您正在尝试做的事情(如果没有,请在Stack Overflow上提问或在GitHub上打开一个功能请求).

对比raw简单的加法操作的性能.

df = pd.DataFrame({"A": [9, 4, 2, 1], "B": [12, 7, 5, 4]})
df

   A   B
0  9  12
1  4   7
2  2   5
3  1   4

归档时间：	7 年前
查看次数：	8380 次
最近记录：	6 年，4 月前

我什么时候应该在我的代码中使用pandas apply()？

apply,您永远不需要的便利功能

如果DataFrame.apply是如此糟糕,那为什么它在API中呢？

我应该如何以及何时制作我的代码apply- 免费？

是否有过任何地方的情况apply是好的？

所有apply的都不一样

GroupBy.apply:普遍青睐

pd.DataFrame.apply 列式:混合袋

`apply`,您永远不需要的便利功能

如果`DataFrame.apply`是如此糟糕,那为什么它在API中呢？

我应该如何以及何时制作我的代码`apply`- 免费？

是否有过任何地方的情况`apply`是好的？

所有`apply`的都不一样

`GroupBy.apply`:普遍青睐

`pd.DataFrame.apply` 列式:混合袋