相关疑难解决方法(0)

Spark:解析数据帧同一列中不同格式的日期/时间戳(MM-dd-yyyy HH:mm、MM/dd/yy H:mm)

问题是:我有一个数据集,其中一列具有两种或多种日期格式。一般来说,我选择所有值作为字符串类型,然后使用to_date来解析日期。但我不知道如何解析具有两种或多种日期格式的列。

val DF= Seq(("02-04-2020 08:02"),("03-04-2020 10:02"),("04-04-2020 09:00"),("04/13/19 9:12"),("04/14/19 2:13"),("04/15/19 10:14"), ("04/16/19 5:15")).toDF("DOB")

import org.apache.spark.sql.functions.{to_date, to_timestamp}
val DOBDF = DF.withColumn("Date", to_date($"DOB", "MM/dd/yyyy"))

Run Code Online (Sandbox Code Playgroud)

上述命令的输出:

null
null
null
0019-04-13
0019-04-14
0019-04-15
0019-04-16
Run Code Online (Sandbox Code Playgroud)

我编写的上面的代码不适用于该格式MM/dd/yyyy,并且未提供我将其null作为输出提供的格式。

因此寻求帮助来解析具有不同日期格式的文件。如果可能的话,还请分享一些处理日期格式的教程或注释。请注意:我使用 Scala 作为 Spark 框架。

提前致谢。

datetime scala date apache-spark apache-spark-sql

3
推荐指数
1
解决办法
4784
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

date ×1

datetime ×1

scala ×1