如何在 Spark Scala 中的窗口 PartitionBy 中应用多列

Sur*_*aja 2 apache-spark

val partitionsColumns = "idnum,monthnum"
val partitionsColumnsList = partitionsColumns.split(",").toList
val loc = "/data/omega/published/invoice"
val df = sqlContext.read.parquet(loc)
val windowFunction = Window.partitionBy  (partitionsColumnsList:_*).orderBy(df("effective_date").desc)
Run Code Online (Sandbox Code Playgroud)
<console>:38: error: overloaded method value partitionBy with alternatives:
(cols: org.apache.spark.sql.Column*)     org.apache.spark.sql.expressions.WindowSpec <and>
(colName: String,colNames: String*)org.apache.spark.sql.expressions.WindowSpec
cannot be applied to (String)
val windowFunction = Window.partitionBy(partitionsColumnsList:_*).orderBy(df("effective_date").desc)
Run Code Online (Sandbox Code Playgroud)

是否可以将列列表发送到partitionBy方法 Spark/Scala?

我已经实现了将一列传递给有效的partitionBy方法。我不知道如何将多列传递给partitionByMethod

基本上我想传递List(Columns)partitionBy方法

Spark 版本是 1.6。

phi*_*ert 5

Window.partitionBy 有以下定义:

static WindowSpec partitionBy(Column... cols) 
Run Code Online (Sandbox Code Playgroud)

使用定义的分区创建 WindowSpec。

static WindowSpec partitionBy(scala.collection.Seq<Column> cols)
Run Code Online (Sandbox Code Playgroud)

使用定义的分区创建 WindowSpec。

static WindowSpec partitionBy(String colName, scala.collection.Seq<String> colNames) 
Run Code Online (Sandbox Code Playgroud)

使用定义的分区创建 WindowSpec。

static WindowSpec partitionBy(String colName, String... colNames)
Run Code Online (Sandbox Code Playgroud)

使用定义的分区创建 WindowSpec。

以你的例子,

val partitionsColumnsList = partitionsColumns.split(",").toList
Run Code Online (Sandbox Code Playgroud)

你可以像这样使用它:

Window.partitionBy(partitionsColumnsList.map(col(_)):_*).orderBy(df("effective_date").desc)
Run Code Online (Sandbox Code Playgroud)

或者

Window.partitionBy(partitionsColumnsList.head, partitionsColumnsList.tail _* ).orderBy(df("effective_date").desc)
Run Code Online (Sandbox Code Playgroud)