如何按两个日期格式列之间的日期过滤 python Spark DataFrame

Question

如何按两个日期格式列之间的日期过滤 python Spark DataFrame

Joa*_*uin 5 python apache-spark apache-spark-sql pyspark

我正在使用 pyspark 2.1，并且我有一个数据框，其中有两列，日期格式如下：

Column A ,  START_DT       ,  END_DT
1        ,  2016-01-01     ,  2020-02-04
16       ,  2017-02-23     ,  2017-12-24

Run Code Online (Sandbox Code Playgroud)

我想过滤和2018-12-31之间的某个日期（例如）（在该示例中，将过滤第二行）。START_DTEND_DT

START_DT和列都END_DT已经是日期格式，我正在寻找像 sql 这样的方法：

SELECT *
FROM  MYTABLE  WHERE  '2018-12-31' BETWEEN start_dt AND end_dt

Run Code Online (Sandbox Code Playgroud)

Answer 1

pau*_*ult 10

如果您有有效的 SQL 查询，则始终可以将 DataFrame 注册为临时表并使用spark.sql()：

df.createOrReplaceTempView("MYTABLE")
spark.sql("SELECT * FROM MYTABLE WHERE '2018-12-31' BETWEEN start_dt AND end_dt").show()
#+-------+----------+----------+
#|ColumnA|  START_DT|    END_DT|
#+-------+----------+----------+
#|      1|2016-01-01|2020-02-04|
#+-------+----------+----------+

Run Code Online (Sandbox Code Playgroud)

另一种选择是将表达式传递给where：

df.where("'2018-12-31' BETWEEN start_dt AND end_dt").show()
#+-------+----------+----------+
#|ColumnA|  START_DT|    END_DT|
#+-------+----------+----------+
#|      1|2016-01-01|2020-02-04|
#+-------+----------+----------+

Run Code Online (Sandbox Code Playgroud)

另一种方法是使用pyspark.sql.Column.betweenwith pyspark.sql.functions.lit，但您必须使用 withpyspark.sql.functions.expr才能将列值用作参数。

from pyspark.sql.functions import lit, expr

test_date = "2018-12-31"
df.where(lit(test_date).between(expr('start_dt'), expr('end_dt'))).show()
#+-------+----------+----------+
#|ColumnA|  START_DT|    END_DT|
#+-------+----------+----------+
#|      1|2016-01-01|2020-02-04|
#+-------+----------+----------+

Run Code Online (Sandbox Code Playgroud)

最后，您可以实现您自己的版本between：

from pyspark.sql.functions import col

df.where((col("start_dt") <= lit(test_date)) & (col("end_dt") >= lit(test_date))).show()
#+-------+----------+----------+
#|ColumnA|  START_DT|    END_DT|
#+-------+----------+----------+
#|      1|2016-01-01|2020-02-04|
#+-------+----------+----------+

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，9 月前
查看次数：	23754 次
最近记录：	2 年，3 月前