如何在Spark SQL(DataFrame)的UDF中使用常量值

Question

如何在Spark SQL(DataFrame)的UDF中使用常量值

eme*_*eth 15 scala apache-spark apache-spark-sql

我有一个包含的数据框timestamp.要按时间(分钟,小时或天)聚合,我尝试过:

val toSegment = udf((timestamp: String) => {
  val asLong = timestamp.toLong
  asLong - asLong % 3600000 // period = 1 hour
})

val df: DataFrame // the dataframe
df.groupBy(toSegment($"timestamp")).count()

Run Code Online (Sandbox Code Playgroud)

这很好用.

我的问题是如何将UDF概括toSegment为

val toSegmentGeneralized = udf((timestamp: String, period: Int) => {
  val asLong = timestamp.toLong
  asLong - asLong % period
})

Run Code Online (Sandbox Code Playgroud)

我尝试了如下但它不起作用

df.groupBy(toSegment($"timestamp", $"3600000")).count()

Run Code Online (Sandbox Code Playgroud)

它似乎找到了名为的列3600000.

可能的解决方案是使用常量列,但我找不到它.

Answer 1

Spi*_*lov 28

您可以使用org.apache.spark.sql.functions.lit()创建常量列:

import org.apache.spark.sql.functions._

df.groupBy(toSegment($"timestamp", lit(3600000))).count()

Run Code Online (Sandbox Code Playgroud)

如果你有一个字符串或int传入,那么lit函数效果很好.像Array/List这样的东西很糟糕.关于该做什么的任何想法？ (3认同)

归档时间：	10 年，9 月前
查看次数：	12609 次
最近记录：	9 年，6 月前