vik*_*kky 5 apache-spark pyspark
df1:
Timestamp:
1995-08-01T00:00:01.000+0000
Run Code Online (Sandbox Code Playgroud)
有没有一种方法可以使用pyspark在数据框的时间戳列中分隔月份中的某天。无法提供代码,我是新手。我不知道如何进行。
您可以使用unix_timestamp解析此时间戳:
from pyspark.sql import functions as F
format = "yyyy-MM-dd'T'HH:mm:ss.SSSZ"
df2 = df1.withColumn('Timestamp2', F.unix_timestamp('Timestamp', format).cast('timestamp'))
Run Code Online (Sandbox Code Playgroud)
然后,您可以在新的时间戳列中使用dayofmonth:
df2.select(F.dayofmonth('Timestamp2'))
Run Code Online (Sandbox Code Playgroud)
有关这些功能的更多详细信息,请参见pyspark 函数文档。
| 归档时间: |
|
| 查看次数: |
10303 次 |
| 最近记录: |