Sid*_*Sid 8 java datetime scala apache-spark apache-spark-sql
我使用Scala将PostgreSQL表导入spark作为数据帧.数据框看起来像
user_id | log_dt  
--------| -------    
96      | 2004-10-19 10:23:54.0    
1020    | 2017-01-12 12:12:14.931652
Run Code Online (Sandbox Code Playgroud)
我正在转换此数据帧以使log_dt的数据格式为yyyy-MM-dd hh:mm:ss.SSSSSS.为了实现这一点,我使用以下代码使用unix_timestamp函数将log_dt转换为时间戳格式.
  val tablereader1=tablereader1Df.withColumn("log_dt",unix_timestamp(tablereader1Df("log_dt"),"yyyy-MM-dd hh:mm:ss.SSSSSS").cast("timestamp"))
Run Code Online (Sandbox Code Playgroud)
当我打印使用命令打印tablereader1数据帧时,tablereader1.show()我得到以下结果
user_id | log_dt  
--------| -------
96      | 2004-10-19 10:23:54.0
1020    | 2017-01-12 12:12:14.0
Run Code Online (Sandbox Code Playgroud)
如何将微秒保留为时间戳的一部分?任何建议表示赞赏.
date_format()您可以使用date_format()接受Java SimpleDateFormat模式的Spark SQL .SimpleDateFormat只能使用模式"S"解析直到milleseconds .
import org.apache.spark.sql.functions._
import spark.implicits._ //to use $-notation on columns
val df = tablereader1Df.withColumn("log_dt", date_format($"log_dt", "S"))
Run Code Online (Sandbox Code Playgroud)
//Imports
import java.time.LocalDateTime;
import java.time.format.DateTimeFormatter;
import java.time.temporal.ChronoField;
/* //Commented as per comment about IntelliJ
spark.udf.register("date_microsec", (dt: String) => 
   val dtFormatter = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss.n")
   LocalDateTime.parse(dt, dtFormatter).getLong(ChronoField.MICRO_OF_SECOND)
)
*/
import org.apache.spark.sql.functions.udf
val date_microsec = udf((dt: String) => {
    val dtFormatter = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss.n")
    LocalDateTime.parse(dt, dtFormatter).getLong(ChronoField.MICRO_OF_SECOND)
})
Run Code Online (Sandbox Code Playgroud)
使用ChronoField.NANO_OF_SECOND而不是ChronoField.MICRO_OF_SECOND在UDF中获取纳秒.
val df = tablereader1Df.withColumn("log_date_microsec", date_microsec($"log_dt"))
Run Code Online (Sandbox Code Playgroud)