如何在Spark中使用日期和时间值对列进行排序？

Question

如何在Spark中使用日期和时间值对列进行排序？

Das*_*D R 4 dataframe apache-spark rdd apache-spark-sql

注意:我将此作为Spark中的Dataframe.此时间/日期值构成Dataframe中的单个列.

输入:

04-NOV-16 03.36.13.000000000 PM
06-NOV-15 03.42.21.000000000 PM
05-NOV-15 03.32.05.000000000 PM
06-NOV-15 03.32.14.000000000 AM

预期产出:

05-NOV-15 03.32.05.000000000 PM
06-NOV-15 03.32.14.000000000 AM
06-NOV-15 03.42.21.000000000 PM
04-NOV-16 03.36.13.000000000 PM

Run Code Online (Sandbox Code Playgroud)

Answer 1

Dan*_*ula 12

由于此格式不是标准格式,因此您需要使用unix_timestamp函数来解析字符串并转换为时间戳类型:

import org.apache.spark.sql.functions._

// Example data
val df = Seq(
  Tuple1("04-NOV-16 03.36.13.000000000 PM"),
  Tuple1("06-NOV-15 03.42.21.000000000 PM"),
  Tuple1("05-NOV-15 03.32.05.000000000 PM"),
  Tuple1("06-NOV-15 03.32.14.000000000 AM")
).toDF("stringCol")

// Timestamp pattern found in string
val pattern = "dd-MMM-yy hh.mm.ss.S a"

// Creating new DataFrame and ordering
val newDF = df
  .withColumn("timestampCol", unix_timestamp(df("stringCol"), pattern).cast("timestamp"))
  .orderBy("timestampCol")

newDF.show(false)

Run Code Online (Sandbox Code Playgroud)

结果:

+-------------------------------+---------------------+
|stringCol                      |timestampCol         |
+-------------------------------+---------------------+
|05-NOV-15 03.32.05.000000000 PM|2015-11-05 15:32:05.0|
|06-NOV-15 03.32.14.000000000 AM|2015-11-06 03:32:14.0|
|06-NOV-15 03.42.21.000000000 PM|2015-11-06 15:42:21.0|
|04-NOV-16 03.36.13.000000000 PM|2016-11-04 15:36:13.0|
+-------------------------------+---------------------+

Run Code Online (Sandbox Code Playgroud)

有关unix_timestamp和其他实用程序函数的更多信息,请参见此处.

要构建时间戳格式,可以参考SimpleDateFormatter文档

编辑1:正如pheeleeppoo所说,您可以直接通过表达式进行排序,而不是创建新列,假设您只想在数据帧中保留字符串类型的列:

val newDF = df.orderBy(unix_timestamp(df("stringCol"), pattern).cast("timestamp"))

Run Code Online (Sandbox Code Playgroud)

编辑2:请注意unix_timestamp函数的精度以秒为单位,因此如果毫秒真的很重要,可以使用udf:

def myUDF(p: String) = udf(
  (value: String) => {
    val dateFormat = new SimpleDateFormat(p)
    val parsedDate = dateFormat.parse(value)
    new java.sql.Timestamp(parsedDate.getTime())
  }
)

val pattern = "dd-MMM-yy hh.mm.ss.S a"
val newDF = df.withColumn("timestampCol", myUDF(pattern)(df("stringCol"))).orderBy("timestampCol")

Run Code Online (Sandbox Code Playgroud)

@Shankar模式中的小写"hh"指定小时应该在0到12之间.然后,模式中的最后一个"a"指定解析器将找到"AM"或"PM",然后定义正确的时间.以下是该模式的文档:https://docs.oracle.com/javase/8/docs/api/java/text/SimpleDateFormat.html (2认同)

归档时间：	9 年，3 月前
查看次数：	7846 次
最近记录：	7 年，1 月前