检查 arraytype 列是否包含 null

Vas*_*kas 4 null scala dataframe apache-spark apache-spark-sql

我有一个包含可以包含整数值的数组类型列的数据框。如果没有值,它将只包含一个值,它将是空值

重要提示:请注意该列不会为空,而是具有单个值的数组;空值

> val df: DataFrame  = Seq(("foo", Seq(Some(2), Some(3))), ("bar", Seq(None))).toDF("k", "v")
df: org.apache.spark.sql.DataFrame = [k: string, v: array<int>]
> df.show()
+---+------+
|  k|     v|
+---+------+
|foo|[2, 3]|
|bar|[null]|
Run Code Online (Sandbox Code Playgroud)

问题:我想获取具有空值的行。


到目前为止我尝试过的:

> df.filter(array_contains(df("v"), 2)).show()
+---+------+
|  k|     v|
+---+------+
|foo|[2, 3]|
+---+------+
Run Code Online (Sandbox Code Playgroud)

对于 null,它似乎不起作用

> df.filter(array_contains(df("v"), null)).show()
Run Code Online (Sandbox Code Playgroud)

org.apache.spark.sql.AnalysisException:v由于数据类型不匹配而无法解析 'array_contains( , NULL)': Null 类型值不能用作参数;

或者

> df.filter(array_contains(df("v"), None)).show()
Run Code Online (Sandbox Code Playgroud)

java.lang.RuntimeException: 不支持的文字类型类 scala.None$ 无

bla*_*hop 8

对于 Spark 2.4+,您可以使用高阶函数exists代替 UDF:

df.where("exists(v, x -> x is null)").show

//+---+---+
//|  k|  v|
//+---+---+
//|bar| []|
//+---+---+
Run Code Online (Sandbox Code Playgroud)


eli*_*sah 7

array_contains在这种情况下无法使用,因为NULL无法比较SQL是否相等。

你可以这样使用udf

val contains_null = udf((xs: Seq[Integer]) => xs.contains(null))

df.where(contains_null($"v")).show

// +---+------+
// |  k|     v|
// +---+------+
// |bar|[null]|
Run Code Online (Sandbox Code Playgroud)