小编Bab*_*Bab的帖子

在spark scala的数据帧列中过滤NULL值

我有一个数据框(df),其中包含以下内容:

+---------+--------------------+
|  col1|        col2           |
+---------+--------------------+
|colvalue1|                NULL|   
|colvalue2|col2value...        |
+------------+-----------------+
Run Code Online (Sandbox Code Playgroud)

我正在尝试根据 col2 过滤行,如下所示

df.filter(($"col2".isNotNULL) || ($"col2" !== "NULL")  || ($"col2" !== "null")  || ($"col2".trim !== "NULL"))
Run Code Online (Sandbox Code Playgroud)

但是具有 NULL 的行没有过滤。本栏目显示nullable=true

谁能让我知道我在做什么错误?我正在使用 Spark 1.6。

scala apache-spark

1
推荐指数
1
解决办法
9964
查看次数

将Array of String列转换为spark scala中的多个列

我有一个包含以下架构的数据框:

id         : int,
emp_details: Array(String)
Run Code Online (Sandbox Code Playgroud)

一些样本数据:

1, Array(empname=xxx,city=yyy,zip=12345)
2, Array(empname=bbb,city=bbb,zip=22345)
Run Code Online (Sandbox Code Playgroud)

这个数据存在于数据框中,我需要emp_details从数组中读取并将其分配给新列,如下所示,或者如果我可以split将此数组分配给列名为的多列empname,city并且zip:

.withColumn("empname", xxx)
.withColumn("city", yyy)
.withColumn("zip", 12345)
Run Code Online (Sandbox Code Playgroud)

你能指导我们如何使用Spark(1.6)Scala实现这一目标.

真的很感谢你的帮助......

非常感谢

scala apache-spark

0
推荐指数
1
解决办法
4821
查看次数

标签 统计

apache-spark ×2

scala ×2