相关疑难解决方法(0)

如何在 PySpark 中将多个参数传递给 Pandas UDF?

我正在使用以下代码片段:

from cape_privacy.pandas.transformations import Tokenizer

max_token_len = 5


@pandas_udf("string")

def Tokenize(column: pd.Series)-> pd.Series:
  tokenizer = Tokenizer(max_token_len)
  return tokenizer(column)


spark_df = spark_df.withColumn("name", Tokenize("name"))
Run Code Online (Sandbox Code Playgroud)

由于 Pandas UDF 仅使用 Pandas 系列,我无法max_token_len在函数调用中传递参数Tokenize("name")

因此我必须max_token_len在函数范围之外定义参数。

这个问题中提供的解决方法并没有真正的帮助。此问题是否还有其他可能的解决方法或替代方案?

请指教

python user-defined-functions pandas pyspark

5
推荐指数
1
解决办法
6197
查看次数

标签 统计

pandas ×1

pyspark ×1

python ×1

user-defined-functions ×1