如何删除具有太多NULL值的行？

val ns: String = null
val features = Seq(("0","1","2",ns,ns), (ns, ns, ns, ns, ns), (ns, "1", ns, "2", ns)).toDF
scala> features.show
+----+----+----+----+----+
|  _1|  _2|  _3|  _4|  _5|
+----+----+----+----+----+
|   0|   1|   2|null|null|
|null|null|null|null|null|
|null|   1|null|   2|null|
+----+----+----+----+----+

// drop rows with more than (5 columns - 2) = 3 nulls
scala> features.na.drop(2, features.columns).show
+----+---+----+----+----+
|  _1| _2|  _3|  _4|  _5|
+----+---+----+----+----+
|   0|  1|   2|null|null|
|null|  1|null|   2|null|
+----+---+----+----+----+

Run Code Online (Sandbox Code Playgroud)

Answer 2

Mic*_*mlk 3

测试日期：

case class Document( a: String, b: String, c: String)
val df = sc.parallelize(Seq(new Document(null, null, null), new Document("a", null, null), new Document("a", "b", null), new Document("a", "b", "c"), new Document(null, null, "c"))).df

Run Code Online (Sandbox Code Playgroud)

带UDF

重新混合David的答案和下面我的 RDD 版本，您可以使用需要一行的 UDF 来完成此操作：

def nullFilter = udf((x:Row) => {Range(0, x.length).count(x.isNullAt(_)) < 2})
df.filter(nullFilter(struct(df.columns.map(df(_)) : _*))).show

Run Code Online (Sandbox Code Playgroud)

与RDD

您可以将其转换为 rdd，循环 Row 中的列并计算有多少列为空。

sqlContext.createDataFrame(df.rdd.filter( x=> Range(0, x.length).count(x.isNullAt(_)) < 2 ), df.schema).show

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，2 月前
查看次数：	7307 次
最近记录：	7 年，4 月前