链式哈希表与开放式哈希表

Question

链式哈希表与开放式哈希表

And*_*anu 45 c hashtable data-structures

有人可以解释两种实现之间的主要区别(优点/缺点)吗？

对于库,建议使用什么实现？

Answer 1

Ric*_*ell 60

维基百科关于哈希表的文章提供了一个明显更好的解释和概述人们使用的不同哈希表方案,而不是我能够摆脱困境.事实上,阅读那篇文章可能比在这里提出问题更好.:)

那说......

链式哈希表索引到指向链表头部的指针数组.每个链接列表单元格都具有为其分配的密钥以及为该密钥插入的值.当您想要从其键中查找特定元素时,键的散列用于计算要遵循的链接列表,然后遍历该特定列表以查找您所追求的元素.如果哈希表中的多个键具有相同的哈希值,那么您将拥有包含多个元素的链接列表.

链式散列的缺点是必须遵循指针才能搜索链表.好处是,链式哈希表只会随着负载因子(哈希表中的元素与桶阵列长度的比率)的增加而线性变慢,即使它高于1.

开放寻址哈希表索引到指向(键,值)对的指针数组.您可以使用密钥的哈希值来确定数组中的哪个插槽首先查看.如果哈希表中的多个键具有相同的哈希值,那么您可以使用某种方案来决定另一个要查找的槽.例如,线性探测是指您选择一个之后的下一个插槽,然后是之后的下一个插槽,依此类推,直到找到与您正在寻找的键匹配的插槽,或者您打空插槽(在这种情况下,密钥不能在那里).

当负载因子较低时,开放寻址通常比链式散列更快,因为您不必遵循列表节点之间的指针.如果负载因子接近1,它会变得非常非常慢,因为在找到您要查找的密钥或空插槽之前,您最终通常必须搜索存储区阵列中的许多插槽.此外,哈希表中的元素永远不会超过桶阵列中的条目.

为了解决所有哈希表在其加载因子接近1时至少变得更慢(并且在某些情况下实际上完全中断)的事实,实际的哈希表实现使得桶阵列更大(通过分配新的桶阵列,并从中复制元素)当负载系数超过某个值(通常约为0.7)时,旧的那个进入新的,然后释放旧的.

上述所有内容都有很多变化.再次,请参阅维基百科文章,它确实非常好.

对于一个供其他人使用的图书馆,我强烈建议您进行试验.由于它们通常对性能至关重要,因此通常最好使用其他人已经仔细调整的哈希表的实现.有许多开源BSD,LGPL和GPL许可的哈希表实现.

例如,如果你正在使用GTK,那么你会发现GLib中有一个很好的哈希表.

优秀的解释.我最近得知的一点是,大多数摘要忽略了指出删除会对开放寻址表中的性能产生负面影响.删除时,仅将条目标记为已删除.插入时,您可以重复使用已删除的条目,但在搜索时,您无法停止已删除的条目.如果您进行了大量的插入和删除操作,那么随着时间的推移,您会累积根据加载因子计算的已删除条目.因此,即使实际负载保持较低,性能也会降低到O(n).如果你不删除,打开寻址是很好的. (19认同)
@Adrian只有在使用标记删除的方法时才会出现这种情况.如果您删除了要查找的项目,然后在删除项目后重新插入探测序列中的所有元素,则删除速度会变慢但不一定会影响插入.但是,如果您的实现容易出现群集,那么删除可能会非常慢. (3认同)

归档时间：	15 年，10 月前
查看次数：	32103 次
最近记录：	6 年，9 月前