我有一张交易数据表,这是对未来的预测。由相同日期、类型、位置和产品标识的相同预测因此被多次读取,因为随着时间的推移和重新发送预测变得更加准确。
我想创建一个查询,该查询将对相同类型和相同位置、产品和日期的交易进行分组,然后从这些组中仅选择具有最新更新时间戳的交易。
该表现在有数十万行,随着时间的推移,数以百万计,所以一个合理有效的解决方案将不胜感激:)
示例表:
date | location_code | product_code | quantity | type | updated_at
------------+------------------+---------------+----------+----------+------------
2013-02-04 | ABC | 123 | -26.421 | TRANSFER | 2013-01-12
2013-02-07 | ABC | 123 | -48.1 | SALE | 2013-01-10
2013-02-06 | BCD | 234 | -58.107 | SALE | 2013-01-11
2013-02-06 | BCD | 234 | -60 | SALE | 2013-01-10
2013-02-04 | ABC | 123 | -6.727 | TRANSFER | 2013-01-10
Run Code Online (Sandbox Code Playgroud)
想要的结果:
date | location_code | product_code | quantity | type | updated_at
------------+------------------+---------------+----------+----------+------------
2013-02-04 | ABC | 123 | -26.421 | TRANSFER | 2013-01-12
2013-02-07 | ABC | 123 | -48.1 | SALE | 2013-01-10
2013-02-06 | BCD | 234 | -58.107 | SALE | 2013-01-11
Run Code Online (Sandbox Code Playgroud)
我试过例如:
SELECT t.date, t.location_code, t.product_code, t.quantity, t.type, t.updated_at
FROM transactions t
INNER JOIN
(
SELECT MAX(updated_at) as max_updated_at
FROM transactions
GROUP BY product_code, location_code, type, date
) s on t.updated_at=max_updated_at;
Run Code Online (Sandbox Code Playgroud)
但这似乎需要很长时间并且似乎不起作用。
感谢您的帮助!
select distinct on ("date", location_code, product_code, type)
"date",
location_code,
product_code,
quantity,
type,
updated_at
from transactions t
order by t."date", t.location_code, t.product_code, t.type, t.updated_at desc
Run Code Online (Sandbox Code Playgroud)