Hash Join 如何与除等式运算符以外的关系运算符一起使用?

mti*_*han 3 join physical-design hashing

我一直在阅读有关 Hash Join 以及它在物理层面上是如何工作的。但是,有些事情我不明白(因为我缺乏知识)。

这是我找到的Hash Join算法;

for each row R1 in the build table
    begin
        calculate hash value on R1 join key(s)
        insert R1 into the appropriate hash bucket
    end
for each row R2 in the probe table
    begin
        calculate hash value on R2 join key(s)
        for each row R1 in the corresponding hash bucket
            if R1 joins with R2
                return (R1, R2)
    end
Run Code Online (Sandbox Code Playgroud)

这对于诸如"TABLE1.NAME == TABLE2.NAME"等的连接条件似乎是足够的。但是,当连接条件为"TABLE1.NAME == TABLE2.NAME" && "TABLE1.AGE > TABLE2.AGE".

我只是无法找到并理解他们如何生成或比较需要相等运算符和其他一些关系运算符(例如大于等)的哈希值。

Pau*_*ite 6

从你正在阅读的文章(克雷格弗里德曼):

散列连接与合并连接共享许多特征。与合并连接一样,它至少需要一个等连接谓词,支持残差谓词,并支持所有外连接和半连接。

(强调)

散列键是从(必需的)等值连接谓词构建的。所有其他谓词都在存储桶扫描期间进行评估,因此名称为“剩余谓词”。

在您的示例中, Name 将用于形成哈希键。在初始哈希探测之后,将在匹配哈希桶中的所有行上评估年龄谓词。在散列键不唯一的情况下,自然也会比较桶中散列列的实际值。

散列连接的执行计划属性(无论如何在 SQL Server 中)将显示构建散列键和任何残差。