Joh*_*ner 9 performance sql-server sql-server-2012 window-functions query-performance
由于我的性能调优技巧似乎永远不够用,我总是想知道我是否可以针对某些查询执行更多优化。此问题涉及的情况是嵌套在子查询中的 Windowed MAX 函数。
我正在挖掘的数据是对不同组较大集的一系列事务。我有 4 个重要的字段,交易的唯一 ID,一批交易的组 ID,以及与各自唯一交易或交易组相关的日期。大多数情况下,集团日期与批次的最大唯一交易日期相匹配,但有时会通过我们的系统进行手动调整,并在捕获集团交易日期后进行唯一日期操作。此手动编辑不会按设计调整组日期。
我在此查询中确定的是唯一日期落在组日期之后的那些记录。以下示例查询构建了与我的场景大致相当的内容,SELECT 语句返回我正在查找的记录,但是,我是否以最有效的方式接近此解决方案?这需要一段时间才能在我的事实表加载期间运行,因为我的记录计数在前 9 位数字中,但主要是我对子查询的蔑视让我想知道这里是否有更好的方法。我并不关心任何索引,因为我相信它们已经到位;我正在寻找的是一种替代查询方法,它可以实现相同的目标,但效率更高。欢迎任何反馈。
CREATE TABLE #Example
(
UniqueID INT IDENTITY(1,1)
, GroupID INT
, GroupDate DATETIME
, UniqueDate DATETIME
)
CREATE CLUSTERED INDEX [CX_1] ON [#Example]
(
[UniqueID] ASC
)
SET NOCOUNT ON
--Populate some test data
DECLARE @i INT = 0, @j INT = 5, @UniqueDate DATETIME, @GroupDate DATETIME
WHILE @i < 10000
BEGIN
IF((@i + @j)%173 = 0)
BEGIN
SET @UniqueDate = GETDATE()+@i+5
END
ELSE
BEGIN
SET @UniqueDate = GETDATE()+@i
END
SET @GroupDate = GETDATE()+(@j-1)
INSERT INTO #Example (GroupID, GroupDate, UniqueDate)
VALUES (@j, @GroupDate, @UniqueDate)
SET @i = @i + 1
IF (@i % 5 = 0)
BEGIN
SET @j = @j+5
END
END
SET NOCOUNT OFF
CREATE NONCLUSTERED INDEX [IX_2_4_3] ON [#Example]
(
[GroupID] ASC,
[UniqueDate] ASC,
[GroupDate] ASC
)
INCLUDE ([UniqueID])
-- Identify any UniqueDates that are greater than the GroupDate within their GroupID
SELECT UniqueID
, GroupID
, GroupDate
, UniqueDate
FROM (
SELECT UniqueID
, GroupID
, GroupDate
, UniqueDate
, MAX(UniqueDate) OVER (PARTITION BY GroupID) AS maxUniqueDate
FROM #Example
) calc_maxUD
WHERE maxUniqueDate > GroupDate
AND maxUniqueDate = UniqueDate
DROP TABLE #Example
Run Code Online (Sandbox Code Playgroud)
dbfiddle在这里
Pau*_*ite 11
何时以及如果您能够从 SQL Server 2012 升级到 SQL Server 2016,您就可以利用新的批处理模式 Window Aggregate 运算符提供的大幅改进的性能(尤其是对于无框窗口聚合)。
几乎所有的大数据处理场景都比行存储更适合使用列存储存储。即使不更改基表的列存储,您仍然可以通过在其中一个基表上创建空的非聚集列存储过滤索引,或通过冗余外部连接到列存储组织的索引来获得新的 2016 运算符和批处理模式执行的好处桌子。
使用第二个选项,查询变为:
-- Just to get batch mode processing and the window aggregate operator
CREATE TABLE #Dummy (a integer NOT NULL, INDEX DummyCC CLUSTERED COLUMNSTORE);
-- Identify any UniqueDates that are greater than the GroupDate within their GroupID
SELECT
calc_maxUD.UniqueID,
calc_maxUD.GroupID,
calc_maxUD.GroupDate,
calc_maxUD.UniqueDate
FROM
(
SELECT
E.UniqueID,
E.GroupID,
E.GroupDate,
E.UniqueDate,
maxUniqueDate = MAX(UniqueDate) OVER (
PARTITION BY GroupID)
FROM #Example AS E
LEFT JOIN #Dummy AS D -- The only change to the original query
ON 1 = 0
) AS calc_maxUD
WHERE
calc_maxUD.maxUniqueDate > calc_maxUD.GroupDate
AND calc_maxUD.maxUniqueDate = calc_maxUD.UniqueDate;
Run Code Online (Sandbox Code Playgroud)
请注意,对原始查询的唯一更改是创建一个空的临时表并添加左连接。执行计划是:
-- Just to get batch mode processing and the window aggregate operator
CREATE TABLE #Dummy (a integer NOT NULL, INDEX DummyCC CLUSTERED COLUMNSTORE);
-- Identify any UniqueDates that are greater than the GroupDate within their GroupID
SELECT
calc_maxUD.UniqueID,
calc_maxUD.GroupID,
calc_maxUD.GroupDate,
calc_maxUD.UniqueDate
FROM
(
SELECT
E.UniqueID,
E.GroupID,
E.GroupDate,
E.UniqueDate,
maxUniqueDate = MAX(UniqueDate) OVER (
PARTITION BY GroupID)
FROM #Example AS E
LEFT JOIN #Dummy AS D -- The only change to the original query
ON 1 = 0
) AS calc_maxUD
WHERE
calc_maxUD.maxUniqueDate > calc_maxUD.GroupDate
AND calc_maxUD.maxUniqueDate = calc_maxUD.UniqueDate;
Run Code Online (Sandbox Code Playgroud)
有关更多信息和选项,请参阅 Itzik Ben-Gan 的优秀系列,关于 SQL Server 2016 中的批处理模式窗口聚合运算符的知识(三部分)。
我假设没有索引,因为您没有提供任何索引。
马上,以下索引将消除您计划中的 Sort 运算符,否则可能会消耗大量内存:
CREATE INDEX IX ON #Example (GroupID, UniqueDate) INCLUDE (UniqueID, GroupDate);
Run Code Online (Sandbox Code Playgroud)
在这种情况下,子查询不是性能问题。如果有的话,我会寻找消除窗口函数(MAX ... OVER)以避免嵌套循环和表假脱机构造的方法。
使用相同的索引,下面的查询乍一看可能效率较低,它确实对基表进行了两到三次扫描,但它在内部消除了大量读取,因为它缺少 Spool 运算符。我猜它仍然会表现得更好,特别是如果您的服务器上有足够的 CPU 内核和 IO 性能:
SELECT e.UniqueID
, e.GroupID
, e.GroupDate
, e.UniqueDate
FROM (
SELECT GroupID, MAX(UniqueDate) AS maxUniqueDate
FROM #Example
GROUP BY GroupID) AS agg
INNER JOIN #Example AS e ON agg.GroupID=e.GroupID
WHERE agg.maxUniqueDate > e.GroupDate
AND agg.maxUniqueDate = e.UniqueDate
OPTION (MERGE JOIN);
Run Code Online (Sandbox Code Playgroud)
(注意:我添加了一个MERGE JOIN
查询提示,但如果您的统计数据井然有序,这可能应该会自动发生。最佳做法是,如果可以的话,最好不要使用这些提示。)
我只是要扔掉旧的交叉申请:
SELECT e.*
FROM #Example AS e
CROSS APPLY ( SELECT TOP 1 e2.UniqueDate AS maxUniqueDate
FROM #Example AS e2
WHERE e2.GroupID = e.GroupID
ORDER BY e2.UniqueDate DESC
) AS ca
WHERE ca.maxUniqueDate > e.GroupDate
AND ca.maxUniqueDate = e.UniqueDate;
Run Code Online (Sandbox Code Playgroud)
使用某种索引,它做得很好。
CREATE CLUSTERED INDEX cx_whatever ON #Example (GroupID)
CREATE UNIQUE NONCLUSTERED INDEX ix_whatever ON #Example (GroupID, UniqueDate DESC, GroupDate)
Run Code Online (Sandbox Code Playgroud)
统计时间和 io 看起来像这样(您的查询是第一个结果)
Table 'Worktable'. Scan count 3, logical reads 28004, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table '#Example'. Scan count 1, logical reads 51, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 15 ms, elapsed time = 20 ms.
Table '#Example'. Scan count 10001, logical reads 21336, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 16 ms, elapsed time = 11 ms.
Run Code Online (Sandbox Code Playgroud)
查询计划在这里(同样,你是第一个):
https://www.brentozar.com/pastetheplan/?id=BJYJvqAal
为什么我更喜欢这个版本?我避开线轴。如果这些开始溢出到磁盘,它会变得丑陋。
但你可能也想试试这个。
SELECT e.*
FROM #Example AS e
CROSS APPLY ( SELECT e2.UniqueDate AS maxUniqueDate
FROM #Example AS e2
WHERE e2.GroupID = e.GroupID
) AS ca
WHERE ca.maxUniqueDate > e.GroupDate
AND ca.maxUniqueDate = e.UniqueDate;
Run Code Online (Sandbox Code Playgroud)
如果这是一个大型 DW,您可能更喜欢 Hash Join 和联接中的行过滤,而不是在TOP 1
查询的末尾作为过滤运算符。
计划在这里:https : //www.brentozar.com/pastetheplan/?id=BkUF55ATx
在这里统计时间和 io:
Table 'Workfile'. Scan count 0, logical reads 0, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'Worktable'. Scan count 0, logical reads 0, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table '#Example'. Scan count 2, logical reads 84, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 16 ms, elapsed time = 5 ms.
Run Code Online (Sandbox Code Playgroud)
希望这可以帮助!
一次编辑,基于@ypercube 的想法,以及一个新的索引。
CREATE NONCLUSTERED INDEX ix_meh ON #Example (UniqueDate,GroupDate) INCLUDE (UniqueID,GroupID);
WITH t1 AS
(
SELECT DISTINCT
e.GroupID ,
MAX(UniqueDate) AS MaxUniqueDate
FROM #Example AS e
GROUP BY e.GroupID
)
SELECT *
FROM #Example AS e
CROSS APPLY (
SELECT *
FROM t1
WHERE t1.MaxUniqueDate > e.GroupDate
AND t1.MaxUniqueDate = e.UniqueDate
AND t1.GroupID = e.GroupID
) ca
Run Code Online (Sandbox Code Playgroud)
这是统计时间和 io:
Table 'Workfile'. Scan count 0, logical reads 0, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'Worktable'. Scan count 0, logical reads 0, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table '#Example'. Scan count 2, logical reads 91, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 0 ms, elapsed time = 4 ms.
Run Code Online (Sandbox Code Playgroud)
这是计划:
https://www.brentozar.com/pastetheplan/?id=SJv8foR6g
归档时间: |
|
查看次数: |
5835 次 |
最近记录: |