Ben*_*min 5 java parsing scala date
我想要一个通用的快速解析器来处理随机格式的日期:
有一种不错的方法吗?
目前,我正计划使用以下方式:
val formatter = new DateTimeFormatterBuilder()
.appendPattern("[yyyy-MM-dd'T'HH:mm:ss]")
.appendPattern("[yyyy-MM-dd]")
.appendPattern("[yyyy]")
// add so many things here
.parseDefaulting(ChronoField.MONTH_OF_YEAR, 1)
.parseDefaulting(ChronoField.DAY_OF_MONTH, 1)
.parseDefaulting(ChronoField.HOUR_OF_DAY, 0)
.parseDefaulting(ChronoField.MINUTE_OF_HOUR, 0)
.parseDefaulting(ChronoField.SECOND_OF_MINUTE, 0)
.parseDefaulting(ChronoField.MICRO_OF_SECOND, 0)
.toFormatter()
val temporalAccessor = formatter.parse("2018")
val localDateTime = LocalDateTime.from(temporalAccessor)
localDateTime.getHour
val zonedDateTime = ZonedDateTime.of(localDateTime, ZoneId.systemDefault)
val result = Instant.from(zonedDateTime)
Run Code Online (Sandbox Code Playgroud)
但是,有比指定数百种格式更聪明的方法吗?
我发现的大多数答案都是过时的(在Java8之前),或者不关注性能和许多不同的格式。
不,没有什么好的/神奇的方法可以做到这一点,主要有两个原因:
数据格式存在变化和模糊性,这使得通用解析器变得非常困难。例如11/11/11
您正在寻找非常高的性能,这排除了任何暴力方法。每个日期 1us 意味着只需几千条指令即可完成完整解析。
在某种程度上,您必须指定哪些格式是有效的以及如何解释它们。做到这一点的最佳方法可能是一个或多个正则表达式,从可能形成日期的所有允许的字符组合中提取适当的字段,然后对各个字段进行更简单的验证。
这是一个处理您列出的所有日期的示例:
val DateMatch = """(\d\d\d\d)[-/ ]?((?:\d\d)|(?:\w\w\w))?[-/ ]?(\d\d)?T?(\d\d)?:?(\d\d)?:?(\d\d)?[\.]*(\d+)?(.*)?""".r
date match {
case DateMatch(year, month, day, hour, min, sec, usec, timezone) =>
(year, Option(month).getOrElse("1"), Option(day).getOrElse(1), Option(hour).getOrElse(0), Option(min).getOrElse(0), Option(sec).getOrElse(0), Option(usec).getOrElse(0), Option(timezone).getOrElse(""))
case _ =>
throw InvalidDateException
}
Run Code Online (Sandbox Code Playgroud)
正如您所看到的,一旦包含了所有可能的日期,事情就会变得非常棘手。但如果正则表达式引擎可以处理它,那么它应该是高效的,因为正则表达式应该编译成一个状态机,该状态机会查看每个字符一次。