加入与EXISTS的表现

Question

加入与EXISTS的表现

一般来说,使用JOIN选择行与EXISTS where子句之间是否存在性能差异？搜索各种问答网站表明联接更有效率,但我记得很久以前在Teradata中学习EXISTS更好.

我确实看到了其他SO答案,像这样和这个,但我的问题是特定于Teradata.

例如,考虑这两个返回相同结果的查询:

select   svc.ltv_scr, count(*) as freq
from     MY_BASE_TABLE svc
join     MY_TARGET_TABLE x
on       x.srv_accs_id=svc.srv_accs_id
group by 1
order by 1

Run Code Online (Sandbox Code Playgroud)

-和-

select   svc.ltv_scr, count(*) as freq
from     MY_BASE_TABLE svc
where exists(
    select 1
    from   MY_TARGET_TABLE x
    where  x.srv_accs_id=svc.srv_accs_id)
group by 1
order by 1

Run Code Online (Sandbox Code Playgroud)

两个表上的主索引(唯一)是'srv_accs_id'.MY_BASE_TABLE相当大(2亿行),MY_TARGET_TABLE相对较小(200,000行).

EXPLAIN计划有一个显着的区别:第一个表示两个表"通过RowHash匹配扫描"连接,第二个表示"通过全行扫描".两者都说它是"全AMP加入步骤",总估计时间相同(0.32秒).

两个查询都执行相同的操作(我正在使用Teradata 13.10).

类似的实验找到一个比较LEFT OUTER非匹配具有相应的连接是NULL where子句的NOT EXISTS子查询也确实表现出的性能差异:

select   svc.ltv_scr, count(*) as freq
from     MY_BASE_TABLE svc
left outer join MY_TARGET_TABLE x
on       x.srv_accs_id=svc.srv_accs_id
where    x.srv_accs_id is null
group by 1
order by 1

Run Code Online (Sandbox Code Playgroud)

-和-

select   svc.ltv_scr, count(*) as freq
from     MY_BASE_TABLE svc
where not exists(
    select 1
    from   MY_TARGET_TABLE x
    where  x.srv_accs_id=svc.srv_accs_id)
group by 1
order by 1

Run Code Online (Sandbox Code Playgroud)

第二个查询计划更快(如EXPLAIN所述,2.21对2.14秒).

我的例子可能太微不足道了,看不出有什么不同; 我只是在寻找编码指导.

Answer 1

Rob*_*ler 6

NOT EXISTS比使用LEFT OUTER JOIN使用IS NULL条件排除参与表中缺少的记录更有效,因为优化器将选择使用带有NOT EXISTS谓词的排除MERGE JOIN.

虽然您的第二次测试没有为数据集产生令人印象深刻的结果,但是当您的数据量增加时,您使用NOT EXISTS而非LEFT JOIN的性能提升非常明显.请记住,表格需要由参与NOT EXISTS连接的列进行哈希分布,就像在LEFT JOIN中一样.因此,数据倾斜会影响EXCLUSION MERGE JOIN的性能.

编辑:

通常,我会将EXISTS作为IN的替代,而不是用它来重写连接解决方案.当参与逻辑比较的列可以为NULL时尤其如此.这并不是说你不能用EXISTS代替INNER JOIN.而不是排除加入,你将最终得到一个包含加入.INNER JOIN本质上是一个包含连接开头.我确信我有一些细微差别,但如果您想花时间阅读它们,可以在手册中找到.

归档时间：	12 年，9 月前
查看次数：	15482 次
最近记录：	12 年，9 月前