小编alo*_*mor的帖子

在Pyspark用dropna清理数据

我对Pyspark来说还是比较新的.我使用的是2.1.0版.我正在尝试清理更大的数据集上的一些数据.我已成功使用了几种技术,如"dropDuplicates"以及子集和sql函数(distinct,count等).

然后我遇到了dropna,我认为这可能会简化问题.但是我不明白为什么使用dropna后第3行和第6行仍然存在.例如:

df = spark.createDataFrame([(1, 'Peter', 1.79, 28,'M', 'Tiler'),
                            (2, 'Fritz', 1.78, 45,'M', None),
                            (3, 'Florence', 1.75, None, None, None),
                            (4, 'Nicola',1.6, 33,'F', 'Dancer'),
                            (5, 'Gregory', 1.8, 54,'M', 'Teacher'),
                            (6, 'Steven', 1.82, None, 'M', None),
                            (7, 'Dagmar', 1.7, 42,'F', 'Nurse'),]
                           , ['id', 'Name', 'Height', 'Age', 'Gender', 'Occupation'])

df.show()

df.dropna(thresh=2)

df.show()
Run Code Online (Sandbox Code Playgroud)

输出:

+---+--------+------+----+------+----------+
| id|    Name|Height| Age|Gender|Occupation|
+---+--------+------+----+------+----------+
|  1|   Peter|  1.79|  28|     M|     Tiler|
|  2|   Fritz|  1.78|  45|     M|      null|
|  3|Florence|  1.75|null|  null|      null|
|  4|  Nicola|   1.6| …
Run Code Online (Sandbox Code Playgroud)

data-cleaning pyspark

1
推荐指数
1
解决办法
8863
查看次数

标签 统计

data-cleaning ×1

pyspark ×1