Pow*_*ers 1 apache-spark pyspark
我想编写一个any_lambda函数来检查ArrayType列中的任何元素是否满足lambda函数指定的条件.
这是我的代码不起作用:
def any_lambda(f, l):
return any(list(map(f, l)))
spark.udf.register("any_lambda", any_lambda)
source_df = spark.createDataFrame(
[
("jose", [1, 2, 3]),
("li", [4, 5, 6]),
("luisa", [10, 11, 12]),
],
StructType([
StructField("name", StringType(), True),
StructField("nums", ArrayType(StringType(), True), True),
])
)
actual_df = source_df.withColumn(
"any_num_greater_than_5",
any_lambda(lambda n: n > 5, col("nums"))
)
Run Code Online (Sandbox Code Playgroud)
这段代码提出来了TypeError: Column is not iterable.
如何创建有效的any_lambda功能?
Udf期望参数是列,lambda函数不是列; 你可能做的是定义,any_lambda以便它需要一个lambda函数并返回一个udf:
import pyspark.sql.functions as F
def any_lambda(f):
@F.udf
def temp_udf(l):
return any(map(f, l))
return temp_udf
source_df = spark.createDataFrame(
[
("jose", [1, 2, 3]),
("li", [4, 5, 6]),
("luisa", [10, 11, 12]),
],
StructType([
StructField("name", StringType(), True),
StructField("nums", ArrayType(IntegerType(), True), True),
])
)
actual_df = source_df.withColumn(
"any_num_greater_than_5",
any_lambda(lambda n: n > 5)(col("nums"))
)
actual_df.show()
+-----+------------+----------------------+
| name| nums|any_num_greater_than_5|
+-----+------------+----------------------+
| jose| [1, 2, 3]| false|
| li| [4, 5, 6]| true|
|luisa|[10, 11, 12]| true|
+-----+------------+----------------------+
Run Code Online (Sandbox Code Playgroud)
或者如@Powers所评论的那样,为了明确返回的列类型,我们可以在udf类似的内容中指定返回的类型:
def any_lambda(f):
def temp_udf(l):
return any(map(f, l))
return F.udf(temp_udf, BooleanType())
Run Code Online (Sandbox Code Playgroud)
现在架构看起来像:
actual_df.printSchema()
root
|-- name: string (nullable = true)
|-- nums: array (nullable = true)
| |-- element: integer (containsNull = true)
|-- any_num_greater_than_5: boolean (nullable = true)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1864 次 |
| 最近记录: |