jab*_*ley 6 mysql disaster-recovery mysql-replication replication
在我们的数据中心断电后,从属 MySQL 数据库陷入困境。
这是其中一个奴隶的日志:
100118 10:05:56 [Note] Slave I/O thread: connected to master 'repl@db1:3306', replication started in log 'bin-log.004712' at position 724207814
100118 10:05:56 [ERROR] Error reading packet from server: Client requested master to start replication from impossible position ( server_errno=1236)
100118 10:05:56 [ERROR] Got fatal error 1236: 'Client requested master to start replication from impossible position' from master when reading data from binary log
100118 10:05:56 [Note] Slave I/O thread exiting, read up to log 'bin-log.004712', position 724207814
Run Code Online (Sandbox Code Playgroud)
控制台显示了更多细节:
mysql> show slave status \G;
*************************** 1. row ***************************
Slave_IO_State:
Master_Host: db1
Master_User: repl
Master_Port: 3306
Connect_Retry: 10
Master_Log_File: bin-log.004712
Read_Master_Log_Pos: 724207814
Relay_Log_File: mysqld-relay-bin.000105
Relay_Log_Pos: 98
Relay_Master_Log_File: bin-log.004712
Slave_IO_Running: No
Slave_SQL_Running: Yes
Replicate_Do_DB: mmplive1,mmpjcr,fui
Replicate_Ignore_DB:
Replicate_Do_Table:
Replicate_Ignore_Table:
Replicate_Wild_Do_Table:
Replicate_Wild_Ignore_Table:
Last_Errno: 0
Last_Error:
Skip_Counter: 0
Exec_Master_Log_Pos: 724207814
Relay_Log_Space: 98
Until_Condition: None
Until_Log_File:
Until_Log_Pos: 0
Master_SSL_Allowed: No
Master_SSL_CA_File:
Master_SSL_CA_Path:
Master_SSL_Cert:
Master_SSL_Cipher:
Master_SSL_Key:
Seconds_Behind_Master: NULL
1 row in set (0.00 sec)
ERROR:
No query specified
Run Code Online (Sandbox Code Playgroud)
查看 master 上的 bin 日志,我们有:
-rw-rw---- 1 mysql mysql 724200412 Jan 18 09:22 bin-log.004712
-rw-rw---- 1 mysql mysql 1904 Jan 18 09:27 bin-log.index
-rw-rw---- 1 mysql mysql 5046830 Jan 18 11:22 slow-log
-rw-rw---- 1 mysql mysql 198249613 Jan 18 11:24 bin-log.004713
Run Code Online (Sandbox Code Playgroud)
修复奴隶的最佳方法是什么?
我正在考虑的选项:
更新:
我错过了另一个选项:将每个从属执行位置指向后一点,以便它尝试复制它已经从 bin-log.004712 处理过的命令。
我选择了第一个选择。
直到从属设备开始尝试执行与主键冲突的插入操作为止。如前所述,从站完成的工作比主站二进制日志所保留的工作还要多。我没有预料到的一个方面是从属设备包含主设备中没有的数据;即从属设备在断电之前保留了一些主设备未保留的事务。
由于就我而言,这些交易与支付无关或类似,因此我选择从从属服务器中删除数据(从而丢失一些已发生但主服务器中不存在的数据),然后让复制再次运行。这使奴隶们完全跟上时代的步伐。如果数据更重要,我们有足够的自动增量偏移量来为我们手动调整数据并确保引用完整性不受到损害提供一些回旋余地。值得庆幸的是,在这种情况下我们不需要这样做。
对于处于这种困境的(被动)主-主配置的机器,我选择了类似的方法。通过被动主控,我的意思是我们有一个主动主控(服务器 A),它是所有写入操作的所在,还有一个被动主控(服务器 B),它允许在零停机时间内进行架构更新。尽管知道这意味着我们丢失了一些不重要的持久事务,但仍选择活动主服务器(服务器 A)中的数据作为真实值。
更改了从站上的日志文件和位置。
CHANGE MASTER MASTER_LOG_FILE='bin-log.004713', MASTER_LOG_POS=0; -- on serverB
Run Code Online (Sandbox Code Playgroud)在被动主服务器 (serverB) 上重新启动从服务器复制,直到它因违反主键约束而失败,与其他从服务器一样。
START SLAVE; -- on serverB
Run Code Online (Sandbox Code Playgroud)停止从被动主服务器 (serverB) 到主动主服务器 (serverA) 的从属复制。
STOP SLAVE; -- on serverA
Run Code Online (Sandbox Code Playgroud)删除从属服务器 (serverB) 上不存在于服务器 A 的主服务器中的行。
DELETE FROM SOME_TABLE WHERE ID IN (???,????); -- on serverB
SHOW MASTER STATUS\G; -- get the new master log position on serverB
Run Code Online (Sandbox Code Playgroud)移动主动主服务器 (serverA) 从属执行位置以跳过被动主服务器 (serverB) 中的删除操作。
CHANGE MASTER TO MASTER_LOG_POS=???; --on serverA; use the value just obtained from serverB
Run Code Online (Sandbox Code Playgroud)在主动主服务器 (serverA) 和被动主服务器上重新启动复制。
START SLAVE; -- on both machines. serverA does nothing and serverB starts catching up.
Run Code Online (Sandbox Code Playgroud)