New*_*DBA 9 sql-server statistics index-tuning sql-server-2012
我在这里寻找专家关于如何管理大约 18 TB 的非常大的数据库的更新统计信息的建议。
我们最近开始面临性能问题,并认为这是由于旧的统计数据造成的。
实际上,我们有一个作业运行 exec sp_update stats 并以默认采样率更新,在我们的例子中为 1.2%。所以我们必须手动更新统计数据并看到一些改进。
我相信安排 FULL SCAN 将是一个挑战。据我所知,我正在将行与采样的行进行比较。例如,在一张大小为 400 GB 且行数超过 100M 的表上,我可以看到采样行约为 2 到 4M。大表是分区的。
我们使用的是 SQL Server 2012 企业版。未启用跟踪标志 2371。
请建议我如何为如此大的数据库以更好的方式更新统计数据以及如何使用该采样率?
根据您的问题,我可以想到可能导致您遇到的问题的四个可能的统计问题。
1. 统计数据的自动更新不够频繁。
在 SQL Server 2012 中,仅在表中 20% 或更多行发生更改后才更新统计信息。这意味着对于 10 亿行表,您将需要在统计更新发生之前修改 200 M 行。随着表变得越来越大,您的统计信息更新将变得越来越少,因此 SQL Server 可以多年不更新大型表的统计信息。
TF 2371更改了阈值,以便更频繁地更新统计信息。在 SQL Server 2016 中,此更改已成为我的默认设置。
2. 工作负载中的查询容易受到上升键问题的影响。
考虑一个每天加载新数据的表和过滤最近一天数据的查询。除非在数据加载后立即更新统计更新,否则新数据将不会出现在任何统计直方图中。由于基数估计值较低,这可能会导致查询性能非常差。
SQL Server 2014 中的新 CE 在这方面进行了改进。如果您要求直方图范围之外的数据,它可能会做出更乐观的猜测,并假设表中有数据但直方图中没有。在 SQL Server 2012 中,您可以通过更频繁地更新统计信息或启用TF 4139来解决此问题(如果有)。TF 4139 仅适用于带有索引的列。SQL Server 可能会针对索引运行非常快速的查询以获得最高或最低值,并会临时修改相关统计对象的直方图。这可以为某些查询带来更好的计划。
3. 您的查询等待统计更新。
默认情况下,如果查询加载过时的统计更新,它将在创建查询计划之前更新该统计对象。在 SQL Server 2012 上,抽样统计更新将使用MAXDOP 1. 如果针对大表启动,该进程可能会在等待统计更新完成时超时。在针对表更新统计信息后,查询性能会更好,因为它不再需要等待统计信息更新。
如果您遇到此问题,可以通过使用该NORECOMPUTE选项进行更主动的统计维护来解决。或者,您可以尝试通过升级到 SQL Server 2016 来加快统计更新。在 SQL Server 2016 上,采样统计更新可以并行运行。
另一种选择是打开该AUTO_UPDATE_STATISTICS_ASYNC选项。如果查询计划遇到过时的统计对象,它将将该统计对象排入队列以供后台作业更新。这听起来可能很糟糕,但确实如此。查询可能会使用陈旧的统计信息执行。当您没有更好的选择时,您希望打开这种功能,例如在使用自动统计更新过于昂贵或对计划形状没有足够帮助的大型系统时。杰克李博客上讲述的是与此选项帮助客户在这里。
4. 您的工作负载将受益于采样率高于自动采样率的手动统计更新。
某些查询和工作负载需要超过默认的统计采样率才能达到可接受的性能。这在大型数据库上可能很难做到,但在 SQL Server 的更高版本中有一些技巧和一些增强功能会有所帮助。
如果您非常了解您的数据和工作量,您或许能够关闭自动统计更新。您可以收集所需的统计数据FULLSCAN并在适当时更新它们。这种方法需要大量的工作和对服务器的大量关注。
如果你有一个现有的维护过程,重建索引(那智慧的辩论)注意,重建索引会自动更新的统计FULLSCAN,所以也许你可以,如果你建立一个维护方案,以更新的统计数据充分利用这一点。
请注意,收集采样统计数据可能不会比全扫描统计数据快,尤其是在直方图列被索引的情况下。SQL Server 可以并行执行全扫描统计信息更新。它也可以在对索引列进行全扫描时避免排序,但在对列进行采样时不会避免排序。事实上,对于足够大的表,如果它们填满 tempdb,针对未索引列的统计更新可能会失败。
SQL Server 2014 引入了增量统计。假设您有一个分区表,并且仅在一个分区中修改了大量数据。以前,要更新表上的统计信息,您必须查看所有分区。有了这个新功能,就可以只收集有关更改分区的新统计信息。SQL Server 能够将分区中的统计信息汇总到一个表级对象中。
如果您无法升级,您可以考虑将某些表转换为分区视图。视图中的每个表都将获得自己的统计对象,因此如果您根据日期加载数据,您可能只需要更新视图中最新表的统计信息,而不是视图的所有表。
最后,如前所述,SQL Server 2016 可以并行更新采样统计信息:
从 SQL Server 2016 开始,在使用兼容级别 130 时,并行完成数据采样以构建统计信息,以提高统计信息收集的性能。每当表大小超过某个阈值时,查询优化器将使用并行样本统计信息。
| 归档时间: |
|
| 查看次数: |
2908 次 |
| 最近记录: |