小编Bab*_*Bab的帖子

在spark scala的数据帧列中过滤NULL值

我有一个数据框（df），其中包含以下内容：

+---------+--------------------+
|  col1|        col2           |
+---------+--------------------+
|colvalue1|                NULL|   
|colvalue2|col2value...        |
+------------+-----------------+

Run Code Online (Sandbox Code Playgroud)

我正在尝试根据 col2 过滤行，如下所示

df.filter(($"col2".isNotNULL) || ($"col2" !== "NULL")  || ($"col2" !== "null")  || ($"col2".trim !== "NULL"))

Run Code Online (Sandbox Code Playgroud)

但是具有 NULL 的行没有过滤。本栏目显示nullable=true。

谁能让我知道我在做什么错误？我正在使用 Spark 1.6。

scala apache-spark

Bab*_*Bab

2018 05-23

1
推荐指数

1
解决办法

9964
查看次数

将Array of String列转换为spark scala中的多个列

我有一个包含以下架构的数据框:

id         : int,
emp_details: Array(String)

Run Code Online (Sandbox Code Playgroud)

一些样本数据:

1, Array(empname=xxx,city=yyy,zip=12345)
2, Array(empname=bbb,city=bbb,zip=22345)

Run Code Online (Sandbox Code Playgroud)

这个数据存在于数据框中,我需要emp_details从数组中读取并将其分配给新列,如下所示,或者如果我可以split将此数组分配给列名为的多列empname,city并且zip:

.withColumn("empname", xxx)
.withColumn("city", yyy)
.withColumn("zip", 12345)

Run Code Online (Sandbox Code Playgroud)

你能指导我们如何使用Spark(1.6)Scala实现这一目标.

真的很感谢你的帮助......

非常感谢

scala apache-spark

Bab*_*Bab

2018 05-17

0
推荐指数

1
解决办法

4821
查看次数

标签统计

apache-spark ×2

scala ×2

在spark scala的数据帧列中过滤NULL值

将Array of String列转换为spark scala中的多个列

标签 统计

小编Bab_Bab的帖子

标签统计