如果用户可以按任何列进行过滤，那么索引每一列是否是个好主意？

Question

如果用户可以按任何列进行过滤，那么索引每一列是否是个好主意？

use*_*722 5 sql sql-server indexing azure-sql-database

在我的应用程序中，用户可以创建具有三种列类型（文本、数字和日期）的自定义表。它们最多可以有 20 列。我使用nvarchar(430)for text、decimal(38,6)numeric 和datetime以及 Identity Id 列基于他们的模式创建了一个 SQL 表。

许多这些表可能由不同的用户创建，并且数据可能会因用户上传新的 CSV 文件而频繁更新。为了在用户数据上传过程中获得最佳性能，我们将表格截断以去除现有数据，然后进行批量 BULK INSERT。

用户可以根据他们建立的过滤器进行选择，过滤器可以包括任意数量的列。我的问题是，在此选择过程中，某些包含大量行的表的性能会很差。为了解决这个问题，我考虑添加索引，但由于我们不知道 WHERE 条件中将包含哪些列，因此我们必须对每一列进行索引。

例如，在本地 SQL 服务器上，一个只有超过一百万行且其中 6 个列的 WHERE 条件的表在第一次运行时将花费大约 8 秒，然后在随后的运行中不到一秒。在每一列上都有索引，第一次运行查询时，它将在不到一秒的时间内运行。当我们在 SQL Azure 数据库上进行测试时，这个性能问题被放大了，其中第一次运行相同的查询将花费一分钟，并且在后续运行中没有改善，但使用索引需要 1 秒。

那么，当用户创建列时，在每列上添加索引是一个合适的解决方案，还是有更好的解决方案？

Answer 1

小智 2

是的，考虑到您的模型，这是一个好主意。当然，维护插入索引会产生更多开销，但如果查询中没有可预测的标准列集，则您没有太多选择。

假设“频繁更新”是指通过上传频繁添加数据，而不是修改现有记录。在这种情况下，您可能会考虑使用各种非 SQL 数据库（例如 Apache Lucene 或其变体）之一，它允许对任意数据组合进行高效查询。对于读取大量“平面”数据集，它们的速度快得惊人。

归档时间：	9 年，7 月前
查看次数：	797 次
最近记录：	5 年，2 月前