相关疑难解决方法(0)

如何在 PySpark 中将多个参数传递给 Pandas UDF？

我正在使用以下代码片段：

from cape_privacy.pandas.transformations import Tokenizer

max_token_len = 5


@pandas_udf("string")

def Tokenize(column: pd.Series)-> pd.Series:
  tokenizer = Tokenizer(max_token_len)
  return tokenizer(column)


spark_df = spark_df.withColumn("name", Tokenize("name"))

Run Code Online (Sandbox Code Playgroud)

由于 Pandas UDF 仅使用 Pandas 系列，我无法max_token_len在函数调用中传递参数Tokenize("name")。

因此我必须max_token_len在函数范围之外定义参数。

这个问题中提供的解决方法并没有真正的帮助。此问题是否还有其他可能的解决方法或替代方案？

请指教

python user-defined-functions pandas pyspark

Luk*_*uke

2021 09-01

5
推荐指数

1
解决办法

6197
查看次数