如何添加天数(作为列的值)到目前为止?

Mrg*_*8m4 3 scala apache-spark apache-spark-sql

我在Spark中添加天数(数字)到日期格式列时遇到问题.我知道有一个函数date_add需要两个参数 - 日期列和整数:

date_add(date startdate, tinyint/smallint/int days)
Run Code Online (Sandbox Code Playgroud)

我想使用整数类型的列值(不是整数本身).

说我有以下数据帧:

val data = Seq(
    (0, "2016-01-1"),
    (1, "2016-02-2"),
    (2, "2016-03-22"),
    (3, "2016-04-25"),
    (4, "2016-05-21"),
    (5, "2016-06-1"),
    (6, "2016-03-21"))
).toDF("id", "date")
Run Code Online (Sandbox Code Playgroud)

我可以简单地将整数添加到日期:

val date_add_fun = 
data.select(
    $"id",
    $"date",
    date_add($"date", 1)
)
Run Code Online (Sandbox Code Playgroud)

但我不能使用包含值的列表达式:

val date_add_fun = 
data.select(
    $"id",
    $"date",
    date_add($"date", $"id")
)
Run Code Online (Sandbox Code Playgroud)

它给出了错误:

<console>:60: error: type mismatch;
 found   : org.apache.spark.sql.ColumnName
 required: Int
           date_add($"date", $"id")
Run Code Online (Sandbox Code Playgroud)

有谁知道是否可以使用列是date_add函数?或者解决方法是什么?

hi-*_*zir 7

你可以使用expr:

import org.apache.spark.sql.functions.expr

data.withColumn("future", expr("date_add(date, id)")).show
// +---+----------+----------+
// | id|      date|    future|
// +---+----------+----------+
// |  0| 2016-01-1|2016-01-01|
// |  1| 2016-02-2|2016-02-03|
// |  2|2016-03-22|2016-03-24|
// |  3|2016-04-25|2016-04-28|
// |  4|2016-05-21|2016-05-25|
// |  5| 2016-06-1|2016-06-06|
// |  6|2016-03-21|2016-03-27|
// +---+----------+----------+
Run Code Online (Sandbox Code Playgroud)

selectExpr 可以以类似的方式使用:

data.selectExpr("*", "date_add(date, id) as future").show
Run Code Online (Sandbox Code Playgroud)