pg_使用 -j 选项恢复非常大的单个表需要几个小时

Question

pg_使用 -j 选项恢复非常大的单个表需要几个小时

nul*_*ptr 5 postgresql pg-dump pg-restore

我正在处理一个包含 700 多百万行的表（没有分区）。我想将此数据加载到另一个数据库，因此我使用了以下 pg_dump 命令，

pg_dump -Fc --column-inserts --data-only --table='tname' -U 
postgres -d dbname > /root/tname_experiment_inserts_custom_format.dump

Run Code Online (Sandbox Code Playgroud)

在目标系统上我使用了以下命令，

pg_restore -d dest_dbname -U postgres -j 7 /root/tname_experiment_inserts_custom_format.dump

Run Code Online (Sandbox Code Playgroud)

目标数据库已经有我尝试恢复的表，因此我使用 TRUNCATE，然后删除了所有索引。目标系统有32GB物理内存，我在postgres配置文件中做了以下设置，

log_min_duration_statement = -1
autovacuum = off
maintenance_work_memory = 7gb 
wal_level = minimal
fsync = off
full_page_writes= off
synchronous_commit= off
max_wal_size= 20GB
wal_buffers= 16MB

Run Code Online (Sandbox Code Playgroud)

当我对 pg_restore 进行计时时，一个小时内仅插入了大约 1600 万行。这意味着恢复数据需要 40 多个小时 (!)。之后，我必须创建我删除的索引和外部约束，这可能还需要几个小时。我有一种感觉，我可以做一些不同的事情，让整个过程更快。请给我任何可以帮助我提高这个过程效率的指示。我还想提一下，我已经看过 COPY，但因为它不维护主键的顺序，所以这个选项对我来说不好。如果我不知道 COPY 的任何特殊设置可以保留数据的顺序，那么很高兴知道！

整个事情的目的是更改列的某些数据类型，当使用 alter table alter columns 查询完成时，也花费了类似的时间。

Answer 1

wil*_*ser 4

鉴于此表：

CREATE TABLE abc(a serial NOT NULL
        ,b text
        ,c DATE NOT NULL
        );
INSERT INTO abc(b,c) VALUES
        ('cow' , '2017-01-01')
        , ('pig' , '2017-01-02')
        , ('dog' , '2017-01-03')
        , ('cat' , '2017-01-04')
        ;

Run Code Online (Sandbox Code Playgroud)

pg_dump -U postgres mydb --column-inserts --data-only

将生成这样的输出：

--
-- Data for Name: abc; Type: TABLE DATA; Schema: tmp; Owner: postgres
--

INSERT INTO abc (a, b, c) VALUES (1, 'cow', '2017-01-01');
INSERT INTO abc (a, b, c) VALUES (2, 'pig', '2017-01-02');
INSERT INTO abc (a, b, c) VALUES (3, 'dog', '2017-01-03');
INSERT INTO abc (a, b, c) VALUES (4, 'cat', '2017-01-04');

--
-- Name: abc_a_seq; Type: SEQUENCE SET; Schema: tmp; Owner: postgres
--

SELECT pg_catalog.setval('abc_a_seq', 4, true);

Run Code Online (Sandbox Code Playgroud)

省略--colum-inserts将产生：

--
-- Data for Name: abc; Type: TABLE DATA; Schema: tmp; Owner: postgres
--

COPY abc (a, b, c) FROM stdin;
1   cow 2017-01-01
2   pig 2017-01-02
3   dog 2017-01-03
4   cat 2017-01-04
\.

--
-- Name: abc_a_seq; Type: SEQUENCE SET; Schema: tmp; Owner: postgres
--

SELECT pg_catalog.setval('abc_a_seq', 4, true);

Run Code Online (Sandbox Code Playgroud)

因此，将为每一行--column-inserts生成一个插入语句，这是非常慢的。该标志仅抑制 DDL 的生成以创建表。--data-only

归档时间：	8 年，1 月前
查看次数：	3254 次
最近记录：	8 年，1 月前