没有 GroupBy 的 Pyspark SQL Pandas 分组地图？

Question

没有 GroupBy 的 Pyspark SQL Pandas 分组地图？

Dav*_*ave 9 python pandas apache-spark pyspark pyspark-sql

我有一个数据集，我想在 AWS EMR 中的临时集群上运行的更大 ETL 过程的不同阶段使用多个 Pyspark SQL Grouped Map UDF进行映射。Grouped Map API 要求在应用之前对 Pyspark 数据帧进行分组，但我实际上不需要对键进行分组。

目前，我正在使用任意分组，该分组有效，但导致：

不必要的洗牌。
每个作业中任意 groupby 的 hacky 代码。

我的理想解决方案允许在没有任意分组的情况下应用矢量化 Pandas UDF，但是如果我可以保存至少可以消除无序的任意分组。

编辑：

这是我的代码的样子。我最初使用的是任意分组，但目前正在spark_partition_id()根据@pault 的评论进行尝试。


@pandas_udf(b_schema, PandasUDFType.GROUPED_MAP)
def transform(a_partition):
  b = a_partition.drop("pid", axis=1)
  # Some other transform stuff
  return b

(sql
  .read.parquet(a_path)
  .withColumn("pid", spark_partition_id())
  .groupBy("pid")
  .apply(transform)
  .write.parquet(b_path))

Run Code Online (Sandbox Code Playgroud)

使用spark_partition_id()似乎仍然会导致洗牌。我得到以下 DAG：

阶段1

扫描拼花
项目
项目
交换

第二阶段

交换
种类
FlatMapGroupsInPandas

Answer 1

104*_*ica 9

要支持大致等效的逻辑（函数(pandas.core.frame.DataFrame) -> pandas.core.frame.DataFrame），您必须切换到 Spark 3.0.0 并使用MAP_ITER转换。

在最新的预览版 (3.0.0-preview2) 中，您需要一个 UDF：

@pandas_udf(b_schema, PandasUDFType.MAP_ITER)
def transform(dfs):
    for df in dfs:
        b = df.drop("pid", axis=1)
        ...
        yield b

df.mapInPandas(transform)

Run Code Online (Sandbox Code Playgroud)

在即将发布的 3.0.0 版本（SPARK-28264）中只是一个简单的函数：

def transform(dfs):
    for df in dfs:
        b = df.drop("pid", axis=1)
        # Some other transform stuff
        ...
        yield b

df.mapInPandas(transform, b_schema)

Run Code Online (Sandbox Code Playgroud)

2.x 上的一个可能解决方法是使用普通SCALARUDF，将结果的每一行序列化为 JSON，然后在另一侧反序列化，即

import json
from pyspark.sql.functions import from_json

@pandas_udf("string", PandasUDFType.SCALAR)
def transform(col1, col2):
    b = pd.DataFrame({"x": col1, "y": col2})
    ...
    return b.apply(lambda x: json.dumps(dict(zip(df.columns, x))), axis=1)


(df
    .withColumn("json_result", transform("col1", "col2"))
    .withColumn("a_struct", from_json("json_result", b_schema)))

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，3 月前
查看次数：	880 次
最近记录：	6 年前