递归查询中不允许使用聚合函数。是否有其他方法来编写此查询?

Chr*_*ris 7 sql postgresql recursion ranking aggregation

TL;DR我不知道如何编写一个在其递归部分不使用聚合函数的递归 Postgres 查询。是否有另一种方法来编写如下所示的递归查询?

假设我们有一些运动:

CREATE TABLE sports (id INTEGER, name TEXT);

INSERT INTO sports VALUES (1, '100 meter sprint');
INSERT INTO sports VALUES (2, '400 meter sprint');
INSERT INTO sports VALUES (3, '50 meter swim');
INSERT INTO sports VALUES (4, '100 meter swim');
Run Code Online (Sandbox Code Playgroud)

以及参加这些运动的运动员的一些单圈时间:

CREATE TABLE lap_times (sport_id INTEGER, athlete TEXT, seconds NUMERIC);

INSERT INTO lap_times VALUES (1, 'Alice',  10);
INSERT INTO lap_times VALUES (1, 'Bob',    11);
INSERT INTO lap_times VALUES (1, 'Claire', 12);

INSERT INTO lap_times VALUES (2, 'Alice',  40);
INSERT INTO lap_times VALUES (2, 'Bob',    38);
INSERT INTO lap_times VALUES (2, 'Claire', 39);

INSERT INTO lap_times VALUES (3, 'Alice',  25);
INSERT INTO lap_times VALUES (3, 'Bob',    23);
INSERT INTO lap_times VALUES (3, 'Claire', 24);

INSERT INTO lap_times VALUES (4, 'Alice',  65);
INSERT INTO lap_times VALUES (4, 'Bob',    67);
INSERT INTO lap_times VALUES (4, 'Claire', 66);
Run Code Online (Sandbox Code Playgroud)

我们想创建一些任意类别:

CREATE TABLE categories (id INTEGER, name TEXT);

INSERT INTO categories VALUES (1, 'Running');
INSERT INTO categories VALUES (2, 'Swimming');
INSERT INTO categories VALUES (3, '100 meter');
Run Code Online (Sandbox Code Playgroud)

并使我们的体育成员成为这些类别的成员:

CREATE TABLE memberships (category_id INTEGER, member_type TEXT, member_id INTEGER);

INSERT INTO memberships VALUES (1, 'Sport', 1);
INSERT INTO memberships VALUES (1, 'Sport', 2);

INSERT INTO memberships VALUES (2, 'Sport', 3);
INSERT INTO memberships VALUES (2, 'Sport', 4);

INSERT INTO memberships VALUES (3, 'Sport', 1);
INSERT INTO memberships VALUES (3, 'Sport', 4);
Run Code Online (Sandbox Code Playgroud)

我们想要一个包含其他类别的“超级”类别:

INSERT INTO categories VALUES (4, 'Running + Swimming');

INSERT INTO memberships VALUES (4, 'Category', 1);
INSERT INTO memberships VALUES (4, 'Category', 2);
Run Code Online (Sandbox Code Playgroud)

现在是棘手的一点。

我们希望根据运动员在每项运动中的单圈时间对他们进行排名:

SELECT sport_id, athlete,
  RANK() over(PARTITION BY sport_id ORDER BY seconds)
FROM lap_times lt;
Run Code Online (Sandbox Code Playgroud)

但我们也希望在类别级别上做到这一点。当我们这样做时,运动员的排名应该基于他们在该类别中所有运动的平均排名。例如:

Alice is 1st in 100 meter sprint and 3rd in 400 meter sprint
  -> average rank: 2

Bob is 2nd in 100 meter sprint and 1st in 400 meter sprint
  -> average rank: 1.5

Claire is 3rd in 100 meter sprint and 2nd in 400 meter sprint
  -> average rank: 2.5

Ranking for running: 1st Bob, 2nd Alice, 3rd Claire
Run Code Online (Sandbox Code Playgroud)

对于“超级”类别,运动员的排名应该基于他们跨类别的平均排名,而不是这些类别中的基础运动。即它应该只考虑它的直接孩子,而不是扩展所有的运动。

我尽力写了一个查询来计算这些排名。这是一个递归查询,从体育项目的底部开始,并通过会员资格逐步计算类别和“超级”类别的排名。这是我的查询:

Alice is 1st in 100 meter sprint and 3rd in 400 meter sprint
  -> average rank: 2

Bob is 2nd in 100 meter sprint and 1st in 400 meter sprint
  -> average rank: 1.5

Claire is 3rd in 100 meter sprint and 2nd in 400 meter sprint
  -> average rank: 2.5

Ranking for running: 1st Bob, 2nd Alice, 3rd Claire
Run Code Online (Sandbox Code Playgroud)

但是,当我运行它时,我收到以下错误:

ERROR: aggregate functions are not allowed in a recursive query's recursive term
Run Code Online (Sandbox Code Playgroud)

这是由avg(r.rank)查询的递归部分引起的。Postgresql 不允许在查询的递归部分调用聚合函数。有没有其他方法可以写这个?

如果我换avg(r.rank), RANK() ...NULL, NULL查询执行并且结果看起来对于体育是正确的,并且它包括类别的预期行数。

我想过可能会尝试使用嵌套查询将递归展开到两个或三个级别,因为这对我的用例来说很好,但我想在尝试之前先在这里问一下。

另一种替代方法可能是更改架构,使其不那么灵活,从而使运动不能属于多个类别。我不确定在这种情况下查询的外观,但它可能更简单?

提前致谢,我真的很感激。

Chr*_*ris 7

这并不漂亮,但我找到了解决方案:

WITH RECURSIVE rankings(rankable_type, rankable_id, athlete, value, rank) AS (
  SELECT 'Sport', sport_id, athlete, seconds, RANK() over(PARTITION BY sport_id ORDER BY seconds)
  FROM lap_times lt

  UNION ALL

  SELECT 'Category', *, rank() OVER(PARTITION by category_id ORDER BY avg_rank) FROM (
    SELECT DISTINCT category_id, athlete, avg(r.rank) OVER (PARTITION by category_id, athlete) AS avg_rank
    FROM categories c
    JOIN memberships m ON m.category_id = c.id
    JOIN rankings r ON r.rankable_type = m.member_type AND r.rankable_id = m.member_id
  ) _
)
SELECT * FROM rankings;
Run Code Online (Sandbox Code Playgroud)

在查询的递归部分,我使用在同一列上分区的窗口函数,而不是调用GROUP BY和计算。avg(r.rank)这与计算平均排名具有相同的效果。

一个缺点是这种计算发生的次数超出了必要的次数。如果我们能够做到GROUP BY这一点avg(r.rank),那就会比avg(r.rank)那时更有效率GROUP BY

由于嵌套查询的结果中现在存在重复项,因此我将DISTINCT其过滤掉,然后外部查询根据这些平均值计算RANK()每个运动员中的所有运动员。category_id

我仍然很想听听是否有人知道更好的方法来做到这一点。谢谢