如何在 PySpark 中从年、月和日创建日期?

Yi *_* Du 3 python apache-spark apache-spark-sql pyspark pyspark-dataframes

我有关于年、月和日的三列。如何使用这些在 PySpark 中创建日期?

bla*_*hop 9

对于 Spark 3+,您可以使用make_date函数:

df = df.withColumn("date", expr("make_date(year, month, day)"))
Run Code Online (Sandbox Code Playgroud)

  • 从 Spark 3.3 开始,它已经在 Python API 中:`F.make_date('year', 'month', 'day')` (3认同)

Shu*_*Shu 8

您可以使用concat_ws()连接列-并转换为日期。

#sampledata
df.show()

#+----+-----+---+
#|year|month|day|
#+----+-----+---+
#|2020|   12| 12|
#+----+-----+---+
from pyspark.sql.functions import *

df.withColumn("date",concat_ws("-",col("year"),col("month"),col("day")).cast("date")).show()
+----+-----+---+----------+
|year|month|day|      date|
+----+-----+---+----------+
|2020|   12| 12|2020-12-12|
+----+-----+---+----------+

#dynamic way
cols=["year","month","day"]
df.withColumn("date",concat_ws("-",*cols).cast("date")).show()
#+----+-----+---+----------+
#|year|month|day|      date|
#+----+-----+---+----------+
#|2020|   12| 12|2020-12-12|
#+----+-----+---+----------+

#using date_format,to_timestamp,from_unixtime(unix_timestamp) functions

df.withColumn("date",date_format(concat_ws("-",*cols),"yyyy-MM-dd").cast("date")).show()
df.withColumn("date",to_timestamp(concat_ws("-",*cols),"yyyy-MM-dd").cast("date")).show()
df.withColumn("date",to_date(concat_ws("-",*cols),"yyyy-MM-dd")).show()
df.withColumn("date",from_unixtime(unix_timestamp(concat_ws("-",*cols),"yyyy-MM-dd"),"yyyy-MM-dd").cast("date")).show()
#+----+-----+---+----------+
#|year|month|day|      date|
#+----+-----+---+----------+
#|2020|   12| 12|2020-12-12|
#+----+-----+---+----------+
Run Code Online (Sandbox Code Playgroud)

  • 所举的例子(2020-12-12)非常简单。但是年=2020、月=1、日=1 是如何工作的呢? (2认同)