使用 Docker，触发 PANIC 的原因：无法找到有效的检查点记录

Question

使用 Docker，触发 PANIC 的原因：无法找到有效的检查点记录

Aws*_*ike 13 postgresql containers docker docker-swarm

我试图更好地理解 Docker，但在这样做的过程中，我似乎损坏了我的应用程序的 PostgreSQL 数据库。

我正在使用 Docker Swarm 启动我的应用程序，但在 PostgreSQL 容器中的循环中收到以下错误：

    2021-02-10 15:38:51.304 UTC 120 LOG:  database system was shut down at 2021-02-10 14:49:14 UTC
    2021-02-10 15:38:51.304 UTC 120 LOG:  invalid primary checkpoint record
    2021-02-10 15:38:51.304 UTC 120 LOG:  invalid secondary checkpoint record
    2021-02-10 15:38:51.304 UTC 120 PANIC:  could not locate a valid checkpoint record
    2021-02-10 15:38:51.447 UTC 1 LOG:  startup process (PID 120) was terminated by signal 6
    2021-02-10 15:38:51.447 UTC 1 LOG:  aborting startup due to startup process failure
    2021-02-10 15:38:51.455 UTC 1 LOG:  database system is shut down

Run Code Online (Sandbox Code Playgroud)

最初，我试图通过转到 FS 中的挂载驱动器来修改容器中的pg_hba.conf文件，该驱动器位于

 /var/lib/docker/volumes/postgres96-data-volume/_data

Run Code Online (Sandbox Code Playgroud)

然而，每次我重新启动容器时，我对pg_hba.conf的更改都会被恢复。因此，今天早上我在挂载文件夹中添加了一个名为test的虚拟文件，并重新启动了容器，希望删除该文件以获得视觉验证，即重新启动容器会自动将该挂载中的所有内容替换为其原始格式。再次重新启动后，我开始收到这些错误消息，阻止我的应用程序启动。

我删除了测试文件并再次重新启动容器，但错误消息仍然存在。

我阅读了许多有关如何修复它的解决方案，但我的问题更多的是了解为什么添加文件会导致这种情况？我的卷是否仅仅因为我在其中添加了文件而损坏了？

谢谢

Answer 1

pal*_*alc 15

警告

对于那些直接使用已接受答案中的解决方案的人，这是您的警告：

已接受答案中的解决方案要求删除 docker 卷，这意味着PostgreSQL 实例中的所有数据都将丢失！

如果您想保留数据库实例的数据，请参阅我的回答。

我遇到同样错误的上下文

我还使用 docker swarm 来部署容器，最近在尝试扩展 postgres 数据库以创建 2 个副本时遇到了这个问题，两个副本都指向相同的物理卷（使用 docker 安装，使用 NFS 共享）。这是为了使数据在两个副本之间保持同步所必需的。但这导致我犯了和你一样的错误

PANIC：无法找到有效的检查点记录

我的发现

首先，数据库卷没有损坏，只是事务 WAL 损坏或失去了共识。我对此做了很多挖掘。我发现有两种情况可能会出现这个错误：

数据库正在执行实时事务，但由于某些错误而突然关闭。在这种情况下，WAL 告诉数据库当它意外关闭时它应该做什么。但是，如果 DB 在 WAL 更新期间关闭，WAL 可能会反映一些实际执行的事务，但具有不正确的执行信息。这会导致 DB 数据与 WAL 不一致，或者事务日志损坏，从而导致检查点错误。
您创建指向同一卷的数据库的多个副本。考虑一下我遇到的 2 个副本的情况。当两个副本同时尝试在同一数据库卷上执行事务时，事务 WAL 会失去共识，因为有两个同时检查点。数据库无法执行任何进一步的事务，因为它无法确定哪个检查点被视为正确的检查点。如果两个容器（不一定是副本）指向 PG_DATA 的相同安装路径，也可能会发生这种情况。

最终，数据库无法启动。容器不会启动，因为数据库抛出错误并关闭容器。

您可以重置 WAL 来解决此问题。当 WAL 重置时，您将丢失尚未在 DB 上执行的事务的数据。但是，已写入的数据和已处理的事务将被保留。

Answer 2

Con*_*ech -3

此错误意味着 Postgres 卷已损坏。当两个容器尝试同时连接到同一卷时，可能会发生这种情况。请参阅此答案以获取更多信息。不确定修改文件如何损坏驱动器。不过，您需要删除并重新创建该卷。为此，您可以：

$ docker stop <your_container_name> # stops a running container
$ docker image prune # removes all images that are not attached to a container
$ docker volume ls # list out active volumes
$ docker volume rm <volume_name> # Remove the volume that's corrupted

Run Code Online (Sandbox Code Playgroud)

我必须运行上面的代码来停止容器，清理未附加到任何容器的图像，然后最终删除保存损坏数据的有问题的卷。

我对此投了反对票，因为您没有足够清楚地警告这会导致数据丢失。 (2认同)

归档时间：	4 年，10 月前
查看次数：	9432 次
最近记录：	2 年，9 月前