如何在PySpark中创建一个返回字符串数组的udf？

Question

如何在PySpark中创建一个返回字符串数组的udf？

Hun*_*nle 12 python user-defined-functions apache-spark apache-spark-sql pyspark

我有一个udf返回一个字符串列表.这不应该太难.我在执行udf时传入数据类型,因为它返回一个字符串数组: ArrayType(StringType).

现在,不知怎的,这不起作用:

我正在操作的数据帧是df_subsets_concat,看起来像这样:

df_subsets_concat.show(3,False)

Run Code Online (Sandbox Code Playgroud)

+----------------------+
|col1                  |
+----------------------+
|oculunt               |
|predistposed          |
|incredulous           |
+----------------------+
only showing top 3 rows

Run Code Online (Sandbox Code Playgroud)

而代码是

from pyspark.sql.types import ArrayType, FloatType, StringType

my_udf = lambda domain: ['s','n']
label_udf = udf(my_udf, ArrayType(StringType))
df_subsets_concat_with_md = df_subsets_concat.withColumn('subset', label_udf(df_subsets_concat.col1))

Run Code Online (Sandbox Code Playgroud)

结果是