问题是:我有一个数据集,其中一列具有两种或多种日期格式。一般来说,我选择所有值作为字符串类型,然后使用to_date来解析日期。但我不知道如何解析具有两种或多种日期格式的列。
val DF= Seq(("02-04-2020 08:02"),("03-04-2020 10:02"),("04-04-2020 09:00"),("04/13/19 9:12"),("04/14/19 2:13"),("04/15/19 10:14"), ("04/16/19 5:15")).toDF("DOB")
import org.apache.spark.sql.functions.{to_date, to_timestamp}
val DOBDF = DF.withColumn("Date", to_date($"DOB", "MM/dd/yyyy"))
Run Code Online (Sandbox Code Playgroud)
上述命令的输出:
null
null
null
0019-04-13
0019-04-14
0019-04-15
0019-04-16
Run Code Online (Sandbox Code Playgroud)
我编写的上面的代码不适用于该格式MM/dd/yyyy,并且未提供我将其null作为输出提供的格式。
因此寻求帮助来解析具有不同日期格式的文件。如果可能的话,还请分享一些处理日期格式的教程或注释。请注意:我使用 Scala 作为 Spark 框架。
提前致谢。