重新索引大型数据库

kra*_*mer 4 postgresql index data-warehouse

我有一个非常大的数据库(数百万行)已被索引。我从另一个来源收到了不同的行,我需要在我的数据库中更新这些行。

我面临的问题是是否有必要再次重新索引整个数据库/表,因为这是一个非常昂贵的过程,我不希望我们的网站在被索引期间关闭。有没有更好的方法或方法将部分索引添加到原始索引中,这样我就不需要重新索引所有内容?

我使用 postgresql 9.1 作为数据库。

dbe*_*hur 5

在更好地了解您的使用之后,我认为真正的答案是:您不需要 REINDEX。

REINDEX 重新创建整个索引。但是索引是增量维护的;随着行的插入和删除,或使用新的键值更新,索引会更新以反映更改以及以前的版本。

由于 MVCC 的工作方式,当您删除一行时,postgres 实际上不能立即删除该行或索引条目,因为可能存在对该行仍然可见的事务,因此它只是将其标记为已删除。VACUUM 会定期运行以对死元组进行垃圾收集,但是在旧行版本中存在死条目的情况下,索引仍然可以保留膨胀。因此,频繁更新索引列或大量删除会产生许多死索引条目,从而降低索引块的键密度并导致索引操作效率低下。这称为“索引膨胀”。

您可以使用一些检查目录视图并计算膨胀的脚本来检测您是否遇到它(可通过先前的链接获得)。如果确实导致索引膨胀,则可能需要定期进行 REINDEX 操作。在您的用例中,您有几百万行,每月删除或修改几百行的补丁。在一年的过程中,这种访问模式可能只触及总行数的一小部分,因此导致的任何索引膨胀都将是微不足道的,并且无法证明 REINDEX 操作的费用是合理的。