小编Plu*_*ug1的帖子

是否有与 Spark Pandas UDF 等效的 Apache Arrow

Spark 提供了几种不同的方法来实现使用和返回 Pandas DataFrame 的 UDF。我目前正在使用联合版本，该版本采用两个（联合分组）Pandas DataFrame 作为输入并返回第三个。

为了在 Spark DataFrame 和 Pandas DataFrame 之间进行高效转换，Spark 使用 Apache Arrow 内存布局，但是仍然需要在 Arrow 和 Pandas 之间进行转换。我真的很想直接访问 Arrow 数据，因为这就是我最终处理 UDF 中的数据的方式（使用Polars）。

来时从 Spark -> Arrow -> Pandas -> Arrow (Polars) 走，返回时相反，似乎很浪费。

user-defined-functions pandas apache-spark apache-arrow python-polars

Plu*_*ug1

lucky-day

5
推荐指数

1
解决办法

634
查看次数