小编Bri*_*ero的帖子

Qualify + Row_number 语句的 SPARK SQL 等效项

有谁知道 Apache Spark SQL 达到与标准 SQLqualify() + rnk 或 row_number 语句相同结果的最佳方法吗？

例如：

我有一个名为 statement_data 的 Spark 数据框，每个月有 12 条记录，每个记录有 100 个唯一的 account_numbers，因此总共有 1200 条记录
每个月记录都有一个名为“statement_date”的字段，可用于确定最近的记录

I want my final result to be a new Spark Dataframe with the 3 most recent records (as determined by statement_date descending) for each of the 100 unique account_numbers, therefore 300 final records in total.

In standard Teradata SQL, I can do the following:

select * from statement_data
qualify row_number ()
over(partition by acct_id order …

Run Code Online (Sandbox Code Playgroud)

sql row-number window-functions apache-spark apache-spark-sql

Bri*_*ero

2017 12-28

7
推荐指数

1
解决办法

2万
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

row-number ×1

sql ×1

window-functions ×1

Qualify + Row_number 语句的 SPARK SQL 等效项

标签 统计

小编Bri_ero的帖子

标签统计