小编Bri*_*ero的帖子

Qualify + Row_number 语句的 SPARK SQL 等效项

有谁知道 Apache Spark SQL 达到与标准 SQLqualify() + rnk 或 row_number 语句相同结果的最佳方法吗?

例如:

  • 我有一个名为 statement_data 的 Spark 数据框,每个月有 12 条记录,每个记录有 100 个唯一的 account_numbers,因此总共有 1200 条记录
  • 每个月记录都有一个名为“statement_date”的字段,可用于确定最近的记录

I want my final result to be a new Spark Dataframe with the 3 most recent records (as determined by statement_date descending) for each of the 100 unique account_numbers, therefore 300 final records in total.

In standard Teradata SQL, I can do the following:

select * from statement_data
qualify row_number ()
over(partition by acct_id order …
Run Code Online (Sandbox Code Playgroud)

sql row-number window-functions apache-spark apache-spark-sql

7
推荐指数
1
解决办法
2万
查看次数