小编Sid*_*hom的帖子

Pyspark:根据多个条件过滤数据框

我想首先根据以下条件过滤数据帧(d <5),其次(如果col1中的值等于col3中的对应项,则col2的值不等于col4中的对应值).

如果原始数据帧DF如下:

+----+----+----+----+---+
|col1|col2|col3|col4|  d|
+----+----+----+----+---+
|   A|  xx|   D|  vv|  4|
|   C| xxx|   D|  vv| 10|
|   A|   x|   A|  xx|  3|
|   E| xxx|   B|  vv|  3|
|   E| xxx|   F| vvv|  6|
|   F|xxxx|   F| vvv|  4|
|   G| xxx|   G| xxx|  4|
|   G| xxx|   G|  xx|  4|
|   G| xxx|   G| xxx| 12|
|   B|xxxx|   B|  xx| 13|
+----+----+----+----+---+
Run Code Online (Sandbox Code Playgroud)

所需的Dataframe是:

+----+----+----+----+---+
|col1|col2|col3|col4|  d|
+----+----+----+----+---+
|   A|  xx|   D|  vv|  4|
| …
Run Code Online (Sandbox Code Playgroud)

sql filter apache-spark-sql pyspark pyspark-sql

19
推荐指数
3
解决办法
6万
查看次数

标签 统计

apache-spark-sql ×1

filter ×1

pyspark ×1

pyspark-sql ×1

sql ×1