从 PostgreSQL 搜索中排除过时数据的最佳方法

Question

从 PostgreSQL 搜索中排除过时数据的最佳方法

boq*_*apt 5 sql postgresql indexing ddl plpgsql

我有一个包含以下列的表：

一个名为的整数列 id
一个名为的文本列 value
一个名为的时间戳列 creation_date

目前，已经为id和value列创建了索引。

我必须在此表中搜索给定值，并希望尽可能快地进行搜索。但我真的不需要查看超过一个月的记录。因此，理想情况下，我想将它们从索引中排除。

实现这一目标的最佳方法是什么：

执行表分区。仅在子表中搜索适当的月份。
创建仅包含最近记录的部分索引。每个月重新创建它。
还有什么？

（PS.：“最好的解决方案”是指最方便、快捷、易于维护的解决方案）

Answer 1

Erw*_*ter 5

部分索引

部分索引非常适合，甚至部分多列索引。但你的条件

不需要在超过一个月的记录中搜索值

不稳定。部分索引的条件只能与文字或IMMUTABLE函数一起使用，即常量值。你提到了Recreate it every month，但这与你的定义不符older than one month。你看到区别了吗？

如果您只需要当前（或上个月），索引重新创建以及查询本身就会变得相当简单！

对于这个答案的其余部分，我将根据您的定义“不超过一个月” 。我以前也必须处理过类似的情况。以下解决方案最适合我：

将索引条件基于固定时间戳，并在查询中使用相同的时间戳，以说服查询规划器可以使用部分索引。这种部分将在很长一段时间内保持有用，只是随着新行的添加和旧行从您的时间范围中删除，其有效性会下降。索引将返回越来越多的误报，附加WHERE子句必须从查询中消除这些误报。重新创建索引以更新其条件。

给定您的测试表：

CREATE TABLE mytbl (
   value text
  ,creation_date timestamp
);

Run Code Online (Sandbox Code Playgroud)

创建一个非常简单的IMMUTABLESQL 函数：

CREATE OR REPLACE FUNCTION f_mytbl_start_ts()
  RETURNS timestamp AS
$func$
SELECT '2013-01-01 0:0'::timestamp
$func$ LANGUAGE sql IMMUTABLE;

Run Code Online (Sandbox Code Playgroud)

在部分索引的情况下使用该函数：

CREATE INDEX mytbl_start_ts_idx ON mytbl(value, creation_date)
WHERE (creation_date >= f_mytbl_start_ts());

Run Code Online (Sandbox Code Playgroud)

value首先。dba.SE 上的相关答案中的解释。
@Igor 在评论中的输入让我改进了我的答案。部分多列索引应该可以更快地排除部分索引中的误报 - 索引条件的本质是它总是越来越过时（但仍然比没有它好得多）。

询问

像这样的查询将利用索引并且应该非常快：

SELECT value
FROM   mytbl
WHERE  creation_date >= f_mytbl_start_ts()            -- !
AND    creation_date >= (now() - interval '1 month')
AND    value = 'foo';

Run Code Online (Sandbox Code Playgroud)

这个看似多余的子句的唯一目的WHERE：creation_date >= f_mytbl_start_ts()是让查询规划器使用部分索引。

您可以手动删除并重新创建函数和索引。

全自动化

或者你可以在一个更大的方案中自动化它，可能有很多类似的表：

免责声明：这是先进的东西。您需要知道自己在做什么，并考虑 用户权限、可能的SQL 注入以及高并发负载下的锁定问题！

该“指导表”在您的制度中每张表接收一行：

CREATE TABLE idx_control (
   tbl text primary key  -- plain, legal table names!
  ,start_ts timestamp
);

Run Code Online (Sandbox Code Playgroud)

我会将所有此类元对象放在单独的模式中。

对于我们的例子：

INSERT INTO idx_control(tbl, value)
VALUES ('mytbl', '2013-1-1 0:0');

Run Code Online (Sandbox Code Playgroud)

“指导表”提供了额外的好处，您可以在一个中心位置概览所有此类表及其各自的设置，并且可以同步更新其中的部分或全部。

每当您start_ts在此表中进行更改时，以下触发器就会启动并处理其余的事情：

触发功能：

CREATE OR REPLACE FUNCTION trg_idx_control_upaft()
  RETURNS trigger AS
$func$
DECLARE
   _idx  text := NEW.tbl || 'start_ts_idx';
   _func text := 'f_' || NEW.tbl || '_start_ts';
BEGIN

-- Drop old idx
EXECUTE format('DROP INDEX IF EXISTS %I', _idx);

-- Create / change function; Keep placeholder with -infinity for NULL timestamp
EXECUTE format('
CREATE OR REPLACE FUNCTION %I()
  RETURNS timestamp AS
$x$
SELECT %L::timestamp
$x$ LANGUAGE SQL IMMUTABLE', _func, COALESCE(NEW.start_ts, '-infinity'));

-- New Index; NULL timestamp removes idx condition:    
IF NEW.start_ts IS NULL THEN 
   EXECUTE format('
   CREATE INDEX  %I ON %I (value, creation_date)', _idx, NEW.tbl);
ELSE
   EXECUTE format('
   CREATE INDEX  %I ON %I (value, creation_date)
   WHERE  creation_date >= %I()', _idx, NEW.tbl, _func);
END IF;

RETURN NULL;

END
$func$ LANGUAGE plpgsql;

Run Code Online (Sandbox Code Playgroud)

扳机：

CREATE TRIGGER upaft
AFTER UPDATE ON idx_control
FOR EACH ROW
WHEN (OLD.start_ts IS DISTINCT FROM NEW.start_ts)
EXECUTE PROCEDURE trg_idx_control_upaft();

Run Code Online (Sandbox Code Playgroud)

UPDATE现在，操纵台上的一个简单校准索引和功能：

UPDATE idx_control
SET    start_ts = '2013-03-22 0:0'
WHERE  tbl = 'mytbl';

Run Code Online (Sandbox Code Playgroud)

您可以运行 cron 作业或手动调用它。
使用索引的查询不会改变。

-> SQLfiddle。
我用一个 10k 行的小测试用例更新了 fiddle 以演示它的工作原理。PostgreSQL 甚至会对我的示例查询进行仅索引扫描。不会有比这更快的了。

归档时间：	12 年，9 月前
查看次数：	960 次
最近记录：	11 年，4 月前