我正在使用以下代码片段:
from cape_privacy.pandas.transformations import Tokenizer
max_token_len = 5
@pandas_udf("string")
def Tokenize(column: pd.Series)-> pd.Series:
tokenizer = Tokenizer(max_token_len)
return tokenizer(column)
spark_df = spark_df.withColumn("name", Tokenize("name"))
Run Code Online (Sandbox Code Playgroud)
由于 Pandas UDF 仅使用 Pandas 系列,我无法max_token_len在函数调用中传递参数Tokenize("name")。
因此我必须max_token_len在函数范围之外定义参数。
这个问题中提供的解决方法并没有真正的帮助。此问题是否还有其他可能的解决方法或替代方案?
请指教