数据库归档解决方案

Question

数据库归档解决方案

Gna*_*nam 18 postgresql partitioning postgresql-9.1 archive

继续我在上发布的一个问题，将高容量和高访问率的表移动到单独的数据库是个好主意吗？，我正在寻找可用于 PostgreSQL 数据库归档的不同技术/解决方案。

我能想到的几个解决方案是：

表分区
单独的表空间和/或模式
将存档的记录/表移动到不同的硬盘

任何其他建议/指针/解决方案都非常受欢迎和赞赏。

注意：我们在 CentOS5.2 上运行 PostgreSQL v9.1.3

Answer 1

suf*_*leR 14

我对存档的建议：

创建archive_tablespace（如果您愿意，可以在存档中分离硬件）
创建表。例如，我们要归档表格帖子。
```
create table  posts_all ( LIKE public.posts)  ;
create table  posts_archive () inherits  ( public.posts_all)  ;
alter table  public.posts  inherits ( public.posts_all ) ;
```
Run Code Online (Sandbox Code Playgroud)
之后，我们将有 2 个新表：public.posts_all（具有与帖子中相同的列）查询所有帖子（存档和生产）和 public.posts_archive 查询所有存档帖子。Public.posts 将从posts_all 继承。
插入应该以旧方式进行（到表 public.posts），除非您将在 posts_all 上编写触发器以将插入重定向到帖子表。如果你有分区，它会更复杂。使用工作应用程序和旧数据迁移之前，您无需更改应用程序代码中的任何内容即可使用此方法。
创建用于逻辑分离的架构存档。如果可能，我的建议是将存档数据按某个时间段（年或月）分开（archive_2005）。
在 archive_year 架构中创建归档表
```
create table archive_2005.posts (
  check(record_date >= '2005-01-01 00:00:00'::timestamp 
    and record_date <  '2006-01-01 00:00:00'::timestamp)
) inherits (posts_archive) tablespace archive_tablesapce;
```
Run Code Online (Sandbox Code Playgroud)
之后，您将在架构 archive_2005 中拥有新表帖子，并且 postgresql planer 将知道该数据仅在设计的时间段内存在。如果按其他时间段查询，postgresql 将不会在此表中搜索。
创建函数/过程/触发器以将数据移动到存档表。
在一段时间内（此处为年份）归档一次并清空旧表或通过触发器自动执行（在 autovacuum 上更重）。这两种技术都有许多优点和缺点。

如果实施：

可以分别查询存档（select * from posts_archive）、所有（select * from posts_all）和生产（select * from public.posts）数据
可以单独转储存档模式并以简单的方式在它们上放置级联。pg_dump -s archive_2005 datase_name drop schema archive_2005 cascade；--要小心，因为它会删除所有相关表
旧数据按表空间物理分离，按模式逻辑分离。
管理归档过程的结构相当复杂
可以在生产表和存档表上创建不同的索引以优化对两者的查询（更小和专门的索引 = 更快的查询和更少的空间需求）
如果您有分区表（按年或月），归档过程将只是将整个表移动到archive_tablespace或只是将其更改为从 posts_archive 继承（我没有对此进行测试）
如果您不想访问旧的（存档的）数据，则无需更改应用程序中的任何内容。

这是通用技术，您应该根据自己的需要进行调整。有什么建议可以改进吗？

进一步阅读：PostgreSQL 继承、分区

归档时间：	12 年，12 月前
查看次数：	11274 次
最近记录：	12 年，11 月前