PostgreSQL查询不在生产中使用索引

Question

PostgreSQL查询不在生产中使用索引

von*_*rad 9 sql database postgresql indexing

我注意到一些奇怪/怪异的东西:

开发/生产中完全相同的查询不使用相同的查询路径.特别是,开发版本使用的是在生产中省略的索引(支持seqscan).

唯一真正的区别是数据集的生产量要大得多 - 索引大小为1034 MB,而生产中为29 MB.如果他们(或表)太大,PostgreSQL会不会使用索引吗？

编辑:EXPLAIN ANALYZE对于两个查询:

发展:

Limit  (cost=41638.15..41638.20 rows=20 width=154) (actual time=159.576..159.581 rows=20 loops=1)
  ->  Sort  (cost=41638.15..41675.10 rows=14779 width=154) (actual time=159.575..159.577 rows=20 loops=1)
        Sort Key: (sum(scenario_ad_group_performances.clicks))
        Sort Method: top-N heapsort  Memory: 35kB
        ->  GroupAggregate  (cost=0.00..41244.89 rows=14779 width=154) (actual time=0.040..151.535 rows=14197 loops=1)
              ->  Nested Loop Left Join  (cost=0.00..31843.75 rows=93800 width=154) (actual time=0.022..82.509 rows=50059 loops=1)
                    ->  Merge Left Join  (cost=0.00..4203.46 rows=14779 width=118) (actual time=0.017..27.103 rows=14197 loops=1)
                          Merge Cond: (scenario_ad_groups.id = scenario_ad_group_vendor_instances.ad_group_id)
                          ->  Index Scan using scenario_ad_groups_pkey on scenario_ad_groups  (cost=0.00..2227.06 rows=14779 width=114) (actual time=0.009..12.085 rows=14197 loops=1)
                                Filter: (scenario_id = 22)
                          ->  Index Scan using index_scenario_ad_group_vendor_instances_on_ad_group_id on scenario_ad_group_vendor_instances  (cost=0.00..1737.02 rows=27447 width=8) (actual time=0.007..7.021 rows=16528 loops=1)
                                Filter: (ad_vendor_id = ANY ('{1,2,3}'::integer[]))
                    ->  Index Scan using index_ad_group_performances_on_vendor_instance_id_and_date on scenario_ad_group_performances  (cost=0.00..1.73 rows=11 width=44) (actual time=0.002..0.003 rows=3 loops=14197)
                          Index Cond: ((vendor_instance_id = scenario_ad_group_vendor_instances.id) AND (date >= '2012-02-01'::date) AND (date <= '2012-02-28'::date))
Total runtime: 159.710 ms

Run Code Online (Sandbox Code Playgroud)

生产:

Limit  (cost=822401.35..822401.40 rows=20 width=179) (actual time=21279.547..21279.591 rows=20 loops=1)
  ->  Sort  (cost=822401.35..822488.42 rows=34828 width=179) (actual time=21279.543..21279.560 rows=20 loops=1)
        Sort Key: (sum(scenario_ad_group_performances.clicks))
        Sort Method: top-N heapsort  Memory: 33kB
        ->  GroupAggregate  (cost=775502.60..821474.59 rows=34828 width=179) (actual time=19126.783..21226.772 rows=34495 loops=1)
              ->  Sort  (cost=775502.60..776739.48 rows=494751 width=179) (actual time=19125.902..19884.164 rows=675253 loops=1)
                    Sort Key: scenario_ad_groups.id
                    Sort Method: external merge  Disk: 94200kB
                    ->  Hash Right Join  (cost=25743.86..596796.70 rows=494751 width=179) (actual time=1155.491..16720.460 rows=675253 loops=1)
                          Hash Cond: (scenario_ad_group_performances.vendor_instance_id = scenario_ad_group_vendor_instances.id)
                          ->  Seq Scan on scenario_ad_group_performances  (cost=0.00..476354.29 rows=4158678 width=44) (actual time=0.043..8949.640 rows=4307019 loops=1)
                                Filter: ((date >= '2012-02-01'::date) AND (date <= '2012-02-28'::date))
                          ->  Hash  (cost=24047.72..24047.72 rows=51371 width=143) (actual time=1123.896..1123.896 rows=34495 loops=1)
                                Buckets: 1024  Batches: 16  Memory Usage: 392kB
                                ->  Hash Right Join  (cost=6625.90..24047.72 rows=51371 width=143) (actual time=92.257..1070.786 rows=34495 loops=1)
                                      Hash Cond: (scenario_ad_group_vendor_instances.ad_group_id = scenario_ad_groups.id)
                                      ->  Seq Scan on scenario_ad_group_vendor_instances  (cost=0.00..11336.31 rows=317174 width=8) (actual time=0.020..451.496 rows=431770 loops=1)
                                            Filter: (ad_vendor_id = ANY ('{1,2,3}'::integer[]))
                                      ->  Hash  (cost=5475.55..5475.55 rows=34828 width=139) (actual time=88.311..88.311 rows=34495 loops=1)
                                            Buckets: 1024  Batches: 8  Memory Usage: 726kB
                                            ->  Bitmap Heap Scan on scenario_ad_groups  (cost=798.20..5475.55 rows=34828 width=139) (actual time=4.451..44.065 rows=34495 loops=1)
                                                  Recheck Cond: (scenario_id = 276)
                                                  ->  Bitmap Index Scan on index_scenario_ad_groups_on_scenario_id  (cost=0.00..789.49 rows=34828 width=0) (actual time=4.232..4.232 rows=37006 loops=1)
                                                        Index Cond: (scenario_id = 276)
Total runtime: 21306.697 ms

Run Code Online (Sandbox Code Playgroud)

Answer 1

J C*_*per 15

放弃

我很少使用PostgreSQL.我正在根据我对SQL Server索引使用和执行计划的了解来回答.如果我弄错了,我会问PostgreSQL众神的怜悯.

查询优化器是动态的

您说您的查询计划已从开发环境更改为生产环境.这是可以预料的.查询优化器旨在根据当前数据条件生成最佳执行计划.在不同条件下,优化器可能会认为使用表扫描与索引扫描更有效.

什么时候使用表扫描与索引扫描更有效？

SELECT A, B
FROM someTable
WHERE A = 'SOME VALUE'

Run Code Online (Sandbox Code Playgroud)

假设您在列上有非聚集索引A.在这种情况下,您正在过滤列A,这可能会利用索引.如果索引足够有选择性,那么这将是有效的 - 基本上,有多少不同的值构成索引？数据库保留有关此选择性信息的统计信息,并在计算执行计划的成本时使用这些统计信

如果表中有一百万行,但只有10个可能的值A,那么您的查询可能会返回大约100K行.由于索引是非群集的,并且您要返回索引中未包含的列B,因此需要对返回的每一行执行查找.这些查找是随机访问查找,比表扫描使用的顺序读取要贵得多.在某一点上,数据库只执行表扫描而不是索引扫描变得更有效.

这只是一种情况,还有很多其他情况.如果不了解您的数据是什么样的,索引的样子以及您尝试访问数据的方式,就很难知道.

回答原来的问题:

如果他们(或表)太大,PostgreSQL会不会使用索引吗？不可以.在您访问数据的方式中,PostgreSQL使用索引与使用表扫描的效率较低.

PostgreSQL FAQ触及了这个主题(参见:为什么我的查询速度慢？为什么他们不使用我的索引？):https://wiki.postgresql.org/wiki/FAQ#Why_are_my_queries_slow.3F_Why_don.27t_they_use_my_indexes.3F

归档时间：	13 年，12 月前
查看次数：	11603 次
最近记录：	10 年，11 月前