在我们的数据中心断电后,从属 MySQL 数据库陷入困境。
这是其中一个奴隶的日志:
100118 10:05:56 [Note] Slave I/O thread: connected to master 'repl@db1:3306', replication started in log 'bin-log.004712' at position 724207814
100118 10:05:56 [ERROR] Error reading packet from server: Client requested master to start replication from impossible position ( server_errno=1236)
100118 10:05:56 [ERROR] Got fatal error 1236: 'Client requested master to start replication from impossible position' from master when reading data from binary log
100118 10:05:56 [Note] Slave I/O thread exiting, read up to log 'bin-log.004712', position 724207814
Run Code Online (Sandbox Code Playgroud)
控制台显示了更多细节: …
我的公司通过专门的托管服务提供商为其客户构建各种网站。
该托管服务提供商意外关闭了负责小范围 IP 的边界网关协议 (BGP) 公告的设备。由于我很幸运,这些 IP 之一恰好是分配给负载均衡器的公共 IP 地址,用于我们客户的所有网络流量。结果,该范围的 BGP 路由通告被撤回并很快在全球范围内无法访问。
托管服务提供商在收到警报后修复了该问题,但这让我们损失了超过 15 分钟的停机时间,我们很想在未来避免这种情况。
我们如何监控?它比我们正常的监控级别低很多,它只检查 apache httpd 状态、JVM 等。我们有内部监控,它使用 Advent AppEngine 检查服务器进程、apache 服务器状态响应、应用程序主页响应。
我们是否能够自行采取措施来解决这个问题?例如,通过某种方式发布我们自己的 BGP 公告?
我很高兴得到指示/建议阅读,而不仅仅是直接的答案,因为堆栈的这个级别对我来说是全新的,我想填补我的知识空白。
我们有一个 httpd 实例,它使用虚拟主机在各种域上提供内容。我们缺乏的是某种(近乎)实时的工具来显示我们的流量形状。
我们可以看到 server-status 页面的输出,但我想要更多一点:
所以那里至少有 2 个要求 - 规划/预测方面,以及仪表板“WTF 目前正在发生?” 看法。
我一直无法找到任何开箱即用的东西,但我不敢相信我是第一个想要这种东西的人?