eme*_*eth 15 scala apache-spark apache-spark-sql
我有一个包含的数据框timestamp.要按时间(分钟,小时或天)聚合,我尝试过:
val toSegment = udf((timestamp: String) => {
val asLong = timestamp.toLong
asLong - asLong % 3600000 // period = 1 hour
})
val df: DataFrame // the dataframe
df.groupBy(toSegment($"timestamp")).count()
Run Code Online (Sandbox Code Playgroud)
这很好用.
我的问题是如何将UDF概括toSegment为
val toSegmentGeneralized = udf((timestamp: String, period: Int) => {
val asLong = timestamp.toLong
asLong - asLong % period
})
Run Code Online (Sandbox Code Playgroud)
我尝试了如下但它不起作用
df.groupBy(toSegment($"timestamp", $"3600000")).count()
Run Code Online (Sandbox Code Playgroud)
它似乎找到了名为的列3600000.
可能的解决方案是使用常量列,但我找不到它.
Spi*_*lov 28
您可以使用org.apache.spark.sql.functions.lit()创建常量列:
import org.apache.spark.sql.functions._
df.groupBy(toSegment($"timestamp", lit(3600000))).count()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
12609 次 |
| 最近记录: |