Ste*_*ble 9 join sql-server many-to-many sql-server-2016 cardinality-estimates
我有 3 个“大”表,它们连接在一对列上(都是int
s)。
每个表在Key1
、上都有一个聚集索引Key2
,然后还有一个列。Key1
具有低基数并且非常偏斜。它总是在WHERE
子句中被引用。条款中Key2
从未提及WHERE
。每个连接都是多对多的。
问题在于基数估计。每个连接的输出估计变小而不是变大。当实际结果达到数百万时,这导致最终估计值低至数百。
我有什么办法可以让 CE 做出更好的估计吗?
SELECT 1
FROM Table1 t1
JOIN Table2 t2
ON t1.Key1 = t2.Key1
AND t1.Key2 = t2.Key2
JOIN Table3 t3
ON t1.Key1 = t3.Key1
AND t1.Key2 = t3.Key2
WHERE t1.Key1 = 1;
Run Code Online (Sandbox Code Playgroud)
我尝试过的解决方案:
Key1
,Key2
Key1
(这有很大帮助,但我最终在数据库中得到了数千个用户创建的统计信息。)屏蔽执行计划(抱歉屏蔽不好)
在我查看的情况下,结果有 900 万行。新的 CE 估计为 180 行;旧版 CE 估计为 6100 行。
这是一个可重现的示例:
DROP TABLE IF EXISTS #Table1, #Table2, #Table3;
CREATE TABLE #Table1 (Key1 INT NOT NULL, Key2 INT NOT NULL, T1Key3 INT NOT NULL, CONSTRAINT pk_t1 PRIMARY KEY CLUSTERED (Key1, Key2, T1Key3));
CREATE TABLE #Table2 (Key1 INT NOT NULL, Key2 INT NOT NULL, T2Key3 INT NOT NULL, CONSTRAINT pk_t2 PRIMARY KEY CLUSTERED (Key1, Key2, T2Key3));
CREATE TABLE #Table3 (Key1 INT NOT NULL, Key2 INT NOT NULL, T3Key3 INT NOT NULL, CONSTRAINT pk_t3 PRIMARY KEY CLUSTERED (Key1, Key2, T3Key3));
-- Table1
WITH Numbers
AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
FROM master..spt_values t1
CROSS JOIN master..spt_values t2),
DataSize (Key1, NumberOfRows)
AS (SELECT 1, 2000 UNION
SELECT 2, 10000 UNION
SELECT 3, 25000 UNION
SELECT 4, 50000 UNION
SELECT 5, 200000)
INSERT INTO #Table1
SELECT Key1
, Key2 = ROW_NUMBER() OVER (PARTITION BY Key1, T1Key3 ORDER BY Number)
, T1Key3
FROM DataSize
CROSS APPLY (SELECT TOP(NumberOfRows)
Number
, T1Key3 = Number%(Key1*Key1) + 1
FROM Numbers
ORDER BY Number) size;
-- Table2 (same Key1, Key2 values; smaller number of distinct third Key)
WITH Numbers
AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
FROM master..spt_values t1
CROSS JOIN master..spt_values t2)
INSERT INTO #Table2
SELECT DISTINCT
Key1
, Key2
, T2Key3
FROM #Table1
CROSS APPLY (SELECT TOP (Key1*10)
T2Key3 = Number
FROM Numbers
ORDER BY Number) size;
-- Table2 (same Key1, Key2 values; smallest number of distinct third Key)
WITH Numbers
AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
FROM master..spt_values t1
CROSS JOIN master..spt_values t2)
INSERT INTO #Table3
SELECT DISTINCT
Key1
, Key2
, T3Key3
FROM #Table1
CROSS APPLY (SELECT TOP (Key1)
T3Key3 = Number
FROM Numbers
ORDER BY Number) size;
DROP TABLE IF EXISTS #a;
SELECT col = 1
INTO #a
FROM #Table1 t1
JOIN #Table2 t2
ON t1.Key1 = t2.Key1
AND t1.Key2 = t2.Key2
WHERE t1.Key1 = 1;
DROP TABLE IF EXISTS #b;
SELECT col = 1
INTO #b
FROM #Table1 t1
JOIN #Table2 t2
ON t1.Key1 = t2.Key1
AND t1.Key2 = t2.Key2
JOIN #Table3 t3
ON t1.Key1 = t3.Key1
AND t1.Key2 = t3.Key2
WHERE t1.Key1 = 1;
Run Code Online (Sandbox Code Playgroud)
需要明确的是,优化器已经知道这是一个多对多连接。如果您强制合并连接并查看估计计划,您可以看到连接运算符的属性,该属性告诉您连接是否可以是多对多的。您需要在这里解决的问题是提高基数估计值,大概是这样您就可以为您遗漏的查询部分获得更有效的查询计划。
的第一件事,我会尝试是放的结果从加入Object3
和Object5
到一个临时表。对于您发布的计划,它只是 51393 行上的单列,因此它几乎不会占用 tempdb 中的任何空间。您可以在临时表上收集完整的统计数据,仅此一项就足以获得足够准确的最终基数估计。收集完整的统计数据Object1
也可能有所帮助。当您从右向左遍历计划时,基数估计通常会变得更糟。
如果这不起作用,ENABLE_QUERY_OPTIMIZER_HOTFIXES
如果您尚未在数据库或服务器级别启用它,您可以尝试查询提示。Microsoft 将 SQL Server 2016 的影响计划的性能修复锁定在该设置后面。其中一些与基数估计有关,所以也许您会很幸运,其中一个修复程序将有助于您的查询。您还可以尝试使用带有FORCE_LEGACY_CARDINALITY_ESTIMATION
查询提示的旧基数估计器。某些数据集可能会使用旧版 CE 获得更好的估计。
作为最后的手段,您可以使用 Adam Machanic 的MANY()
函数通过您喜欢的任何因素手动增加基数估计。我在另一个答案中谈到了它,但看起来链接已经死了。如果你有兴趣,我可以试着挖掘一些东西。
归档时间: |
|
查看次数: |
1381 次 |
最近记录: |