Spark Dataset和java.sql.Date

Question

Spark Dataset和java.sql.Date

Luk*_*ský 7 scala apache-spark apache-spark-dataset apache-spark-encoders

假设我有这样的Spark Dataset:

scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS

Run Code Online (Sandbox Code Playgroud)

我想创建一个Dataset只有name和date字段的new .据我所知,我既可以使用ds.select(),TypedColumn也可以使用ds.select(),Column然后转换DataFrame为Dataset.

但是,我不能让前一个选项与该Date类型一起使用.例如:

scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset.  Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._  Support for serializing other types will be added in future releases.
              ds.select($"name".as[String], $"date".as[Date])
                                                      ^

Run Code Online (Sandbox Code Playgroud)

后一个选项有效:

scala> ds.select($"name", $"date").as[(String, Date)]
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]

Run Code Online (Sandbox Code Playgroud)

有没有办法从不去往后面选择Date字段？DatasetDataFrame

Answer 1

Ale*_*lec 5

一整天都在为这些问题埋头苦干。我认为你可以用一行来解决你的问题：

implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)]

Run Code Online (Sandbox Code Playgroud)

至少这对我有用。

编辑

在这些情况下，问题在于对于大多数Dataset操作，Spark 2 需要一个Encoder存储模式信息（大概是为了优化）。模式信息采用隐式参数的形式（并且一堆Dataset操作具有这种隐式参数）。

在这种情况下，OP 找到了正确的架构，java.sql.Date因此以下工作：

implicit val e = org.apache.spark.sql.Encoders.DATE

Run Code Online (Sandbox Code Playgroud)

这并没有直接解决问题，但它让我走上了正轨。使用 `implicit val encodeDate = org.apache.spark.sql.Encoders.DATE` 解决了这个问题。我不确定为什么默认隐式不处理它。 (3认同)

归档时间：	9 年，6 月前
查看次数：	2498 次
最近记录：	7 年，1 月前