小编Sof*_*lli的帖子

选择满足条件的列

我在 zeppelin 中运行以下笔记本：

%spark.pyspark
l = [('user1', 33, 1.0, 'chess'), ('user2', 34, 2.0, 'tenis'), ('user3', None, None, ''), ('user4', None, 4.0, '   '), ('user5', None, 5.0, 'ski')]
df = spark.createDataFrame(l, ['name', 'age', 'ratio', 'hobby'])
df.show()

root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)
 |-- ratio: double (nullable = true)
 |-- hobby: string (nullable = true)
+-----+----+-----+-----+
| name| age|ratio|hobby|
+-----+----+-----+-----+
|user1|  33|  1.0|chess|
|user2|  34|  2.0|tenis|
|user3|null| null|     |
|user4|null|  4.0|     |
|user5|null|  5.0|  ski| …

Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark apache-zeppelin spark-dataframe pyspark-sql

Sof*_*lli

2017 05-22

6
推荐指数

1
解决办法

4734
查看次数