使用 pyarrow 作为 dtype_backend 的 Pandas 2.0 数据帧上的聚合速度非常慢

Question

假设我有以下数据框：

我想对其执行以下操作：

df.groupby("code").aggregate({
    "price": "sum"
})

我尝试使用 Pandas 2.0 中引入的新 pyarrow dtypes，并创建了 3 个副本，对于每个副本，我测量了上述操作的执行时间（5 次执行的平均值）。

谁能解释为什么与标准 numpy float64 dtype 相比，在具有 double pyarrow dtype 的列上应用聚合函数如此慢？

Answer 1

看起来箭头的 groupby 尚未实现 - 因此内部可能发生箭头 -> numpy 导致性能损失。