PostgreSQL 11 在索引应该足够的分区表上进行并行 seq 扫描

Question

PostgreSQL 11 在索引应该足够的分区表上进行并行 seq 扫描

Vit*_*aly 5 postgresql query-optimization database-partitioning database-indexes postgresql-11

问题是我一直在一个相当简单的查询上获得 seq 扫描，这是一个非常简单的设置。我究竟做错了什么？

Windows Server 2016 上的 Postgres 11
配置更改完成： constraint_exclusion = partition
单个表分区为 200 个子表，每个分区有数十万条记录。
相关字段的索引（假设一个字段也已分区）

这是创建语句：

CREATE TABLE A (
    K int NOT NULL,
    X bigint NOT NULL,
    Date timestamp NOT NULL,
    fy smallint NOT NULL,
    fz decimal(18, 8) NOT NULL,
    fw decimal(18, 8) NOT NULL,
    fv decimal(18, 8) NULL,
    PRIMARY KEY (K, X)
) PARTITION BY LIST (K);

CREATE TABLE A_1 PARTITION OF A FOR VALUES IN (1);
CREATE TABLE A_2 PARTITION OF A FOR VALUES IN (2);
...
CREATE TABLE A_200 PARTITION OF A FOR VALUES IN (200);
CREATE TABLE A_Default PARTITION OF A DEFAULT;

CREATE INDEX IX_A_Date ON A (Date);

Run Code Online (Sandbox Code Playgroud)

有问题的查询：

SELECT K, MIN(Date), MAX(Date)
FROM A 
GROUP BY K

Run Code Online (Sandbox Code Playgroud)

这总是需要几分钟的序列扫描，而很明显，由于日期字段已编入索引，因此根本不需要表数据，而我只是要求其 B 树的第一个和最后一个叶子。

最初索引是打开的(K, Date)，它很快就呈现给我，Postgres 不会在我认为它正在使用的任何查询中接受一个。索引对(Date)其他查询做了技巧，似乎 Postgres 声称自动分区索引。然而，这个特定的简单查询总是用于 seq 扫描。

任何想法表示赞赏！

更新

查询计划(analyze, buffers)如下：

Finalize GroupAggregate  (cost=4058360.99..4058412.66 rows=200 width=20) (actual time=148448.183..148448.189 rows=5 loops=1)
  Group Key: a_16.k
  Buffers: shared hit=5970 read=548034 dirtied=4851 written=1446
  ->  Gather Merge  (cost=4058360.99..4058407.66 rows=400 width=20) (actual time=148448.166..148463.953 rows=8 loops=1)
    Workers Planned: 2
    Workers Launched: 2
    Buffers: shared hit=5998 read=1919356 dirtied=4865 written=1454
    ->  Sort  (cost=4057360.97..4057361.47 rows=200 width=20) (actual time=148302.271..148302.285 rows=3 loops=3)
        Sort Key: a_16.k
        Sort Method: quicksort  Memory: 25kB
        Worker 0:  Sort Method: quicksort  Memory: 25kB
        Worker 1:  Sort Method: quicksort  Memory: 25kB
        Buffers: shared hit=5998 read=1919356 dirtied=4865 written=1454
        ->  Partial HashAggregate  (cost=4057351.32..4057353.32 rows=200 width=20) (actual time=148302.199..148302.203 rows=3 loops=3)
            Group Key: a_16.k
            Buffers: shared hit=5984 read=1919356 dirtied=4865 written=1454
            ->  Parallel Append  (cost=0.00..3347409.96 rows=94658849 width=12) (actual time=1.678..116664.051 rows=75662243 loops=3)
                Buffers: shared hit=5984 read=1919356 dirtied=4865 written=1454
                ->  Parallel Seq Scan on a_16  (cost=0.00..1302601.32 rows=42870432 width=12) (actual time=0.320..41625.766 rows=34283419 loops=3)
                    Buffers: shared hit=14 read=873883 dirtied=14 written=8
                ->  Parallel Seq Scan on a_19  (cost=0.00..794121.94 rows=26070794 width=12) (actual time=0.603..54017.937 rows=31276617 loops=2)
                    Buffers: shared read=533414
                ->  Parallel Seq Scan on a_20  (cost=0.00..447025.50 rows=14900850 width=12) (actual time=0.347..52866.404 rows=35762000 loops=1)
                    Buffers: shared hit=5964 read=292053 dirtied=4850 written=1446
                ->  Parallel Seq Scan on a_18  (cost=0.00..198330.23 rows=6450422 width=12) (actual time=4.504..27197.706 rows=15481014 loops=1)
                    Buffers: shared read=133826
                ->  Parallel Seq Scan on a_17  (cost=0.00..129272.31 rows=4308631 width=12) (actual time=3.014..18423.307 rows=10340224 loops=1)
                    Buffers: shared hit=6 read=86180 dirtied=1
                ...
                ->  Parallel Seq Scan on a_197  (cost=0.00..14.18 rows=418 width=12) (actual time=0.000..0.000 rows=0 loops=1)
                ->  Parallel Seq Scan on a_198  (cost=0.00..14.18 rows=418 width=12) (actual time=0.001..0.002 rows=0 loops=1)
                ->  Parallel Seq Scan on a_199  (cost=0.00..14.18 rows=418 width=12) (actual time=0.001..0.001 rows=0 loops=1)
                ->  Parallel Seq Scan on a_default  (cost=0.00..14.18 rows=418 width=12) (actual time=0.001..0.002 rows=0 loops=1)
Planning Time: 16.893 ms
Execution Time: 148466.519 ms

Run Code Online (Sandbox Code Playgroud)

更新 2只是为了避免将来出现诸如“您应该索引 (K, Date)”之类的评论：

两个索引到位的查询计划完全相同，分析数量相同，甚至缓冲区命中/读取也几乎相同。

Answer 1

Lau*_*lbe 5

可以通过设置enable_partitionwise_aggregate为启用聚合下推到并行计划on。

这可能会稍微加快您的查询速度，因为 PostgreSQL 不必在并行工作程序之间传递如此多的数据。

但它看起来像PostgreSQL是不够聪明弄清楚它可以使用索引来加速min并max为每个分区，虽然它是足够聪明，这样做与非分区表。

没有很好的方法可以解决这个问题。您可以求助于查询每个分区：

SELECT k, min(min_date), max(max_date)
FROM (
   SELECT 1 AS k, MIN(date) AS min_date, MAX(date) AS max_date FROM a_1
   UNION ALL
   SELECT 2, MIN(date), MAX(date) FROM a_2
   UNION ALL
   ...
   SELECT 200, MIN(date), MAX(date) FROM a_200
   UNION ALL
   SELECT k, MIN(date), MAX(date) FROM a_default
) AS all_a
GROUP BY k;

Run Code Online (Sandbox Code Playgroud)

糟糕！这里显然有改进的余地。

我深入研究了代码并在src/backend/optimizer/plan/planagg.c以下位置找到了原因：

SELECT k, min(min_date), max(max_date)
FROM (
   SELECT 1 AS k, MIN(date) AS min_date, MAX(date) AS max_date FROM a_1
   UNION ALL
   SELECT 2, MIN(date), MAX(date) FROM a_2
   UNION ALL
   ...
   SELECT 200, MIN(date), MAX(date) FROM a_200
   UNION ALL
   SELECT k, MIN(date), MAX(date) FROM a_default
) AS all_a
GROUP BY k;

Run Code Online (Sandbox Code Playgroud)

基本上，当 PostgreSQL 看到一个GROUP BY子句时，它就会下注。

归档时间：	6 年，11 月前
查看次数：	1654 次
最近记录：	6 年，11 月前