pyspark中的时间戳解析

vik*_*kky 5 apache-spark pyspark

df1:

Timestamp:

1995-08-01T00:00:01.000+0000
Run Code Online (Sandbox Code Playgroud)

有没有一种方法可以使用pyspark在数据框的时间戳列中分隔月份中的某天。无法提供代码,我是新手。我不知道如何进行。

Dan*_*ula 7

您可以使用unix_timestamp解析此时间戳:

from pyspark.sql import functions as F

format = "yyyy-MM-dd'T'HH:mm:ss.SSSZ"
df2 = df1.withColumn('Timestamp2', F.unix_timestamp('Timestamp', format).cast('timestamp'))
Run Code Online (Sandbox Code Playgroud)

然后,您可以在新的时间戳列中使用dayofmonth:

df2.select(F.dayofmonth('Timestamp2'))
Run Code Online (Sandbox Code Playgroud)

有关这些功能的更多详细信息,请参见pyspark 函数文档