依赖 GROUP BY 以及结果总数

Hom*_*ith 2 sql postgresql group-by count

我有三张桌子:

users其中只有两列:id: INT, name: TEXT

houses其中有三列:id: INT, user_id: INT, sold_at: DATE

users_with_house_permissions其中有两列:id: INT, user_id: INT

我有一个查询,可以找到用户出售的房屋数量(只要它具有 house_permissions):

SELECT users.id as user_id, COUNT(*) as houses_sold
FROM users
JOIN users_with_house_permissions hp ON hp.user_id = users.id
LEFT JOIN houses on houses.user_id = users.id AND houses.sold_at IS NOT NULL
GROUP BY users.id
Run Code Online (Sandbox Code Playgroud)

现在,我怎样才能获得返回的总行数?我正在尝试进行分页,我需要知道此查询将返回的总行数。

例如,如果我有以下内容:

users (id, name):

1, John
2, Carla
3, Bula

users_with_house_permissions (id, user_id):

1, 1
2, 2

houses (id, user_id, sold_at):

1, 1, '2018-10-10'
Run Code Online (Sandbox Code Playgroud)

我希望查询的结果是:

user_id: 1
houses_sold: 1
total_count: 2

user_id: 2
houses_sold: 0
total_count: 2
Run Code Online (Sandbox Code Playgroud)

因此,total_count 将表示此查询将返回的行数。

Cai*_*ard 5

您可以使用不带任何分区的分析/窗口函数计数:

SELECT users.id as user_id, COUNT(*) as houses_sold,

  COUNT(*) OVER() as total_count -- count of rows returned by query

FROM users
JOIN users_with_house_permissions hp ON hp.user_id = users.id
LEFT JOIN houses on houses.user_id = users.id AND houses.sold_at IS NOT NULL
GROUP BY users.id
Run Code Online (Sandbox Code Playgroud)

它的工作原理与任何其他分析函数一样;它对一个分区进行计数,但如果没有指定分区,那么它对整个数据集进行计数。在这种情况下,计数是在分组完成后完成的,因此count(*)在计算组中的项目数的同时,也count(*) over()计算数据集中的组数

其他人发布了一个sum(count(*)) over(),这相当于在分组之前对行进行计数。如果你有一个“谁卖了房子”的数据集,它是这样的:

john
john
john
mary
Run Code Online (Sandbox Code Playgroud)

已售出 4 栋房屋,约翰售出 3 栋,玛丽售出 1 栋。该机构有 2 名销售代表。

COUNT(*) FROM ... GROUP BY name给出“john sell 3, mary sell 1”,结果数据集为:

john, 3
mary, 1
Run Code Online (Sandbox Code Playgroud)

如果我们对该计数进行求和,我们将得到 4,即 3+1。这实际上是分组完成之前的房屋数量。SUM(COUNT(*)) OVER()因此是我们进行分组之前的行数。重要的是要记住,COUNT(*) 属于 GROUP BY,并将成为一个整数计数,然后由 SUM OVER 进行求和。如果我们使用子查询可能会更容易看出:

SELECT name, the_count, SUM(the_count) OVER()
FROM (SELECT name, count(*) as the_count FROM sales GROUP BY name) subquery
Run Code Online (Sandbox Code Playgroud)

但由于分析是在分组完成后计算的,因此实际上没有必要这样呈现;数据库将以与以下相同的方式执行此操作:

SELECT name, count(*), sum(count(*)) over() FROM sales GROUP BY name
Run Code Online (Sandbox Code Playgroud)

因此,我们到了您欣赏到在执行分组后应用分析的地步,这意味着其中COUNT(*) OVER()是分组操作完成后数据集中的行数。分组产生,john,3|mary,1因此 COUNT(*) OVER() 产生 2 - 数据集中的行数

如果您想阅读更多内容,该文档的标题是“Windows Functions”,可以在以下位置找到:https://www.postgresql.org/docs/9.1/tutorial-window.html

这是针对 PG 9.1 的;记得将视图更改为您的特定 PG 版本