假设我有一个包含字段A
和的表B
。我在A
+上进行常规查询B
,所以我在 上创建了一个复合索引(A,B)
。A
复合索引是否也会对查询进行全面优化?
此外,我在 上创建了一个索引A
,但 Postgres 仍然只使用复合索引来查询A
。如果前面的答案是肯定的,我想这并不重要,但是为什么它默认选择复合索引,如果单个A
索引可用?
我有一个带有多列索引的表,我怀疑索引的正确排序以获得最大查询性能。
场景:
PostgreSQL 8.4,大约有一百万行的表
c1列中的值可以有大约100 个不同的值。我们可以假设这些值是均匀分布的,因此每个可能的值大约有 10000 行。
列c2可以有1000 个不同的值。对于每个可能的值,我们有 1000 行。
搜索数据时,条件始终包含这两列的值,因此该表具有组合 c1 和 c2 的多列索引。如果您的查询仅使用一列进行过滤,我已经阅读了正确排序多列索引中的列的重要性。在我们的场景中,情况并非如此。
我的问题是这个:
鉴于其中一个过滤器选择的数据集要小得多,如果第一个索引是最具选择性的索引(允许更小的数据集),我是否可以提高性能?在我看到参考文章中的图形之前,我从未考虑过这个问题:
图片取自有关多列索引的参考文章。
查询使用两列中的值进行过滤。我没有仅使用一列进行过滤的查询。他们都是:WHERE c1=@ParameterA AND c2=@ParameterB
。还有这样的条件:WHERE c1 = "abc" AND c2 LIKE "ab%"
我们有一个包含约 50 亿行的 PostgreSQL 表,它养成了一个讨厌的习惯,即缺少正确的索引并对某些LIMIT
操作进行主键扫描。
问题通常出现在一个ORDER BY .. LIMIT ..
子句(Django 分页中的常见模式)上,其中LIMIT
是索引匹配的结果的一些相对较小的子集。一个极端的例子是这样的:
SELECT * FROM mcqueen_base_imagemeta2
WHERE image_id IN ( 123, ... )
ORDER BY id DESC
LIMIT 1;
Run Code Online (Sandbox Code Playgroud)
其中该IN
子句中的项目约为 20,索引匹配的总行数image_id
为 16。
在EXPLAIN
表明,它错过了image_id
指数,而是确实5B行的PK扫描:
限制(成本=0.58..4632.03 行=1 宽度=28) -> 在 mcqueen_base_imagemeta2 上使用 mcqueen_base_imagemeta2_pkey 向后扫描索引(成本=0.58..364597074.75 行=78722 宽度=28) 过滤器:(image_id = ANY ('{123, ...}'::bigint[]))
如果LIMIT
增加到2
,它会按预期工作:
限制(成本=7585.92..7585.93 行=2 宽度=28) -> 排序(成本=7585.92..7782.73 行=78722 宽度=28) 排序键:id DESC -> 在 mcqueen_base_imagemeta2 上使用 …
postgresql performance index-tuning paging postgresql-9.6 query-performance