什么时候应该删除和重新创建索引?

Ale*_*don 9 sql-server-2008 data-warehouse sql-server

我们正在构建一个最初为 1 TB 的数据仓库,并将每月增长约 20gigs。

对于某些表,我们每天都在执行 ETL 过程,而对于其他表,我们每周/每月执行一次。

当有数据导入到表中时,是否需要删除并重新创建索引?

是否有必要删除和重新创建索引,或者它们是否会自动更新?

统计信息设置为自动更新。

非常感谢您的帮助和指导。

我得到了这个天才脚本:

SELECT 'ALTER INDEX [' + ix.name + '] ON [' + s.name + '].[' + t.name + '] ' +
       CASE WHEN ps.avg_fragmentation_in_percent > 40 THEN 'REBUILD' ELSE 'REORGANIZE' END +
       CASE WHEN pc.partition_count > 1 THEN ' PARTITION = ' + cast(ps.partition_number as nvarchar(max)) ELSE '' END
FROM   sys.indexes AS ix INNER JOIN sys.tables t
           ON t.object_id = ix.object_id
       INNER JOIN sys.schemas s
           ON t.schema_id = s.schema_id
       INNER JOIN (SELECT object_id, index_id, avg_fragmentation_in_percent, partition_number
                   FROM sys.dm_db_index_physical_stats (DB_ID(), NULL, NULL, NULL, NULL)) ps
           ON t.object_id = ps.object_id AND ix.index_id = ps.index_id
       INNER JOIN (SELECT object_id, index_id, COUNT(DISTINCT partition_number) AS partition_count
                   FROM sys.partitions
                   GROUP BY object_id, index_id) pc
           ON t.object_id = pc.object_id AND ix.index_id = pc.index_id
WHERE  ps.avg_fragmentation_in_percent > 10 AND
       ix.name IS NOT NULL
Run Code Online (Sandbox Code Playgroud)

从这里:

http://weblogs.asp.net/okloeten/archive/2009/01/05/6819737.aspx

您是否建议我每天运行此脚本并根据结果运行生成的代码?

JNK*_*JNK 13

如果这是循环 ETL,并且您处于开发(即非实时)数据环境中,那么您绝对应该将索引作为加载周期的一部分进行管理。

我每个月都会对几个数据集执行此操作,其中最大的一个每月会为 5 TB 的数据集增加大约 100 GB。

我已经进行了广泛的测试,根据我自己的经验,加载索引的最有效方法是:

  1. DISABLE 非聚集索引,保留聚集索引不变
  2. 将原始数据加载到数据表中
  3. REBUILD NC索引

如果您只是定期添加行作为托管 ETL 的一部分,这就是要走的路。这还可以确保您的所有统计数据都是最新的。

对于统计数据,请务必注意,向 1TB 数据库添加 20GB 不会达到统计数据自动更新的临界点,因此您可以添加一整月的数据而无需更新统计数据。

重建 NC 索引是解决此问题的好方法。如果碎片变高(取决于您的表结构和聚集键),您可能还希望定期进行聚集索引重建。

  • 您还可以将统计信息作为流程的一个单独部分进行更新,如果这样做的成本太高,则可以在 NC 重建之间进行混合。 (4认同)