LDr*_*opl 3 dataframe apache-spark pyspark
我有一个带有两列的数据框:
+--------+-----+
| col1| col2|
+--------+-----+
|22 | 12.2|
|1 | 2.1|
|5 | 52.1|
|2 | 62.9|
|77 | 33.3|
Run Code Online (Sandbox Code Playgroud)
我想创建一个新的数据框,它将仅包含行
“ col1的值”>“ col2的值”
就像要注意的那样,col1具有long类型,而col2具有double类型
结果应该是这样的:
+--------+----+
| col1|col2|
+--------+----+
|22 |12.2|
|77 |33.3|
Run Code Online (Sandbox Code Playgroud)
另一种可能的方法是使用whereDF 函数。
例如这个:
val output = df.where("col1>col2")
Run Code Online (Sandbox Code Playgroud)
会给你预期的结果:
+----+----+
|col1|col2|
+----+----+
| 22|12.2|
| 77|33.3|
+----+----+
Run Code Online (Sandbox Code Playgroud)
小智 7
根据条件保留行的最佳方法是使用filter,正如其他人提到的。
要回答标题中所述的问题,根据条件删除行的一种选择是在 Pyspark 中使用 left_anti join。例如,要删除 col1>col2 的所有行,请使用:
rows_to_delete = df.filter(df.col1>df.col2)
df_with_rows_deleted = df.join(rows_to_delete, on=[key_column], how='left_anti')
Run Code Online (Sandbox Code Playgroud)
小智 6
我认为最好的方法是简单地使用“过滤器”。
df_filtered=df.filter(df.col1>df.col2)
df_filtered.show()
+--------+----+
| col1|col2|
+--------+----+
|22 |12.2|
|77 |33.3|
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
11789 次 |
| 最近记录: |