我有一个数据框(df),其中包含以下内容:
+---------+--------------------+
| col1| col2 |
+---------+--------------------+
|colvalue1| NULL|
|colvalue2|col2value... |
+------------+-----------------+
Run Code Online (Sandbox Code Playgroud)
我正在尝试根据 col2 过滤行,如下所示
df.filter(($"col2".isNotNULL) || ($"col2" !== "NULL") || ($"col2" !== "null") || ($"col2".trim !== "NULL"))
Run Code Online (Sandbox Code Playgroud)
但是具有 NULL 的行没有过滤。本栏目显示nullable=true
。
谁能让我知道我在做什么错误?我正在使用 Spark 1.6。
我有一个包含以下架构的数据框:
id : int,
emp_details: Array(String)
Run Code Online (Sandbox Code Playgroud)
一些样本数据:
1, Array(empname=xxx,city=yyy,zip=12345)
2, Array(empname=bbb,city=bbb,zip=22345)
Run Code Online (Sandbox Code Playgroud)
这个数据存在于数据框中,我需要emp_details
从数组中读取并将其分配给新列,如下所示,或者如果我可以split
将此数组分配给列名为的多列empname
,city
并且zip
:
.withColumn("empname", xxx)
.withColumn("city", yyy)
.withColumn("zip", 12345)
Run Code Online (Sandbox Code Playgroud)
你能指导我们如何使用Spark(1.6)Scala实现这一目标.
真的很感谢你的帮助......
非常感谢