上周我们发生了相当严重的中断,影响了几项服务,这使我们无法与客户达成 SLA。现在一切都已解决,我正在进行事后审查。
通过这次审查,我想提出一份内部文件,描述中断、其影响、我们的响应和解决方案。我想提出一个相当标准的形式以供将来重用。我已经在下面列出了我的想法,但还应该包括哪些其他项目?如果这是与安全相关的事件,您会添加什么?
尽量将帖子简化为一项和解释,并且可以使用最高投票的答案更新此帖子。
我将关闭我的网站以升级代码。我想在升级过程中显示临时停机页面。为了防止机器人在停机期间尝试爬取我的网站,我应该确保在此窗口期间返回什么 HTTP 响应?
中断是我们试图避免的一些事情,但它们是不可避免的:它们会发生(我们希望很少发生),我们必须知道如何处理它们(并从中学习)。
那么,您参与过的主要停电是什么?你和你的团队是如何解决这个问题的?你为未来学到了什么?请分享您的想法:)
我为加拿大多伦多和世界各地的各种客户提供自由 IT 咨询服务。
一位客户最近遇到了电源故障。现在他们在 Slackware 12.0.0 机器上遇到了各种问题,该机器也充当 DNS 服务器。
一个问题是他们无法登录到 phpMyAdmin。
我尝试停止并重新启动 MySQL。但即使当 MySQL 停止时,锁文件仍然存在。
jasonspiro@cybertron:~$ sudo /etc/init.d/mysql stop
Shutting down MySQL. SUCCESS!
jasonspiro@cybertron:~$ sudo /etc/init.d/mysql stop
ERROR! MySQL manager or server PID file could not be found!
jasonspiro@cybertron:~$ sudo /etc/init.d/mysql status
ERROR! MySQL is not running, but lock exists
jasonspiro@cybertron:~$ ls -l /var/lock/subsys/mysql
-rw-r--r-- 1 root root 0 2012-07-05 16:18 /var/lock/subsys/mysql
Run Code Online (Sandbox Code Playgroud)
尽管 MySQL 没有运行,为什么 MySQL 的锁定文件仍然存在?
我可以简单地停止 MySQL,删除锁定文件,然后重新启动 MySQL 吗?
接下来我还应该采取任何其他步骤,还是什么都不做?
编辑: 在我问这个问题一段时间后,我注意到在这台机器上安装 MySQL 的方式似乎很奇怪。另外,我发现/etc/init.d/mysql
我在这台机器上找到的脚本总是在启动 …
如果我更改计算机的 IP 地址,ISP 可能需要很长时间才能停止缓存结果。如果我提前计划,有没有办法减轻这种情况?
有时我们的一个应用程序因维护而停机,我们希望在用户开始向我们的服务台拨打电话之前让他们知道这一点。将网络上的事件通知我们的用户的最佳方式是什么?
一些用户在我们的 Intranet 上,而其他用户从 Web 登录。是否有他们可以安装的应用程序,我们可以向其发送通知消息?
我很想听听其他人提出了什么来解决这个要求。
在假期周末,我们的一位客户遭遇停电。当一切都恢复在线时,大多数设备似乎都正常,但少数设备(我们的 ESXi 主机之一和多个 VDI)无法获得正确的 IP 地址。他们从 Windows 获得了 169 APIPA。我查看了 DHCP 日志,从停电开始,有 0 次租用或续订。就像 DHCP 整个周末都处于空闲状态。
我退回了它,突然之间,所有的租约都开始涌入,所有获得 APIPA 的东西都得到了一个正常的地址,一切都恢复了正常。
我的问题是:DHCP 是否有某种设置导致它像这样运行?我觉得硬中断不应该破坏 DHCP,尤其是在重新启动时。
我想弄清楚发生了什么,这样如果再次发生中断,我们就不会遇到同样的问题。
日志时间轴:
11/25 11:15 PM,服务器断电后启动:
00,11/25/20,23:12:23,Started,,,,,0,6,,,,,,,,,0
64,11/25/20,23:12:23,No static IP address bound to DHCP server,,,,,0,6,,,,,,,,,0
Run Code Online (Sandbox Code Playgroud)
大约一个小时后,设备开始丢失地址:
24,11/26/20,00:00:19,Database Cleanup Begin,,,,,0,6,,,,,,,,,0
18,11/26/20,00:00:19,Expired,10.x.x.16,,,,0,6,,,,,,,,,0
18,11/26/20,00:00:19,Expired,10.x.x.18,,,,0,6,,,,,,,,,0
18,11/26/20,00:00:19,Expired,10.x.x.19,,,,0,6,,,,,,,,,0
etc...
Run Code Online (Sandbox Code Playgroud)
几个小时后,条目开始被删除
24,11/26/20,03:12:24,Database Cleanup Begin,,,,,0,6,,,,,,,,,0
16,11/26/20,03:12:24,Deleted,10.x.x.16,,,,0,6,,,,,,,,,0
16,11/26/20,03:12:24,Deleted,10.x.x.18,,,,0,6,,,,,,,,,0
16,11/26/20,03:12:24,Deleted,10.x.x.19,,,,0,6,,,,,,,,,0
etc...
Run Code Online (Sandbox Code Playgroud)
之后,在数据库清理之外没有任何活动:
24,11/26/20,21:12:29,Database Cleanup Begin,,,,,0,6,,,,,,,,,0
25,11/26/20,21:12:29,0 leases expired and 0 leases deleted,,,,,0,6,,,,,,,,,0
25,11/26/20,21:12:29,0 leases expired and 0 leases deleted,,,,,0,6,,,,,,,,,0
24,11/26/20,22:12:29,Database Cleanup Begin,,,,,0,6,,,,,,,,,0
etc... (until reboot)
Run Code Online (Sandbox Code Playgroud)
今天,当我重新启动时,一切都再次开始获取地址
01,11/30/20,05:17:21,Stopped,,,,,0,6,,,,,,,,,0
00,11/30/20,05:17:26,Started,,,,,0,6,,,,,,,,,0
55,11/30/20,05:17:26,Authorized(servicing),,<redacted>.net,,,0,6,,,,,,,,,0 …
Run Code Online (Sandbox Code Playgroud) 我们正在更换服务器机房的搁架,我找到了一张纸,上面列出了停电期间/停电后要采取的各种措施:
其中一些步骤是有道理的,但我不确定是否会断电。我们所有的调制解调器、路由器、交换机和服务器都使用备用电池。PowerChute Business Edition 安装在服务器上,并且它们被配置为在最后一分钟自动关闭(因为我们会遇到很多短暂的中断)。我从过去的停电中知道自动关闭正在工作,并且当电源恢复时服务器会再次自动开机。复印机没有备用电池,考虑到每个人都希望它们死掉,我对保护它们并不真正感兴趣。
检查事情是否再次启动并运行是有意义的,我已经配置了相当多的自动电子邮件来处理这个问题(使用第三方监控服务)。
那么在停电期间我真的需要做什么?我认为记下时间并致电电力公司就足够了。我在本网站的其他地方读到有人建议手动关闭所有设备,但我们不会在电源恢复之前留在现场,因此我们更喜欢让事情自行恢复。
为了提供有关环境的一些背景信息,我们的电子邮件服务器以及运行我们的在线订购系统和邮编定位服务的网络服务器都位于内部。这些需要上升,尽管当我们下降时订单并没有真正丢失;我们是一家拥有分销网络的制造公司,因此我们不直接向最终消费者销售产品。当系统恢复时,我们的经销商将输入他们的订单。
起初,我无法正确命名我的问题,因此将对此进行调整
我最近经历了一个国际网络差距。意味着当全球网络的某些部分不可用时。
我可以使用ping
, traceroute
,nmap
工具找出差距发生的地方以及我的请求被丢弃或丢弃的地方。
最近差距的例子:
traceroute to 46.249.37.143 (46.249.37.143), 64 hops max, 52 byte packets
1 comtrend.home (10.0.0.1) 3.934 ms 0.860 ms 0.775 ms
2 88.103.200.48 (88.103.200.48) 24.264 ms 24.790 ms 23.823 ms
3 88.103.203.1 (88.103.203.1) 25.447 ms 25.848 ms 26.754 ms
4 194.228.190.1 (194.228.190.1) 34.816 ms 27.087 ms 27.312 ms
5 194.228.190.193 (194.228.190.193) 29.056 ms 27.352 ms 43.560 ms
6 ae0-0-grtprach1.red.telefonica-wholesale.net.7.16.84.in-addr.arpa (84.16.7.29) 25.538 ms 26.177 ms 25.337 ms
7 xe3-3-0-0-grtpartv1.red.telefonica-wholesale.net.121.142.94.in-addr.arpa (94.142.121.30) 45.752 ms
xe-4-0-0-0-grtpartv2.red.telefonica-wholesale.net.121.142.94.in-addr.arpa …
Run Code Online (Sandbox Code Playgroud) 我是 Windstream 的众多客户之一,这是我所在地区唯一的互联网提供商,在成为客户 1 年后,我的 10M 互联网连接变成了大约 512k 连接。我偶尔会得到我的实际 10M 速度,但通常我会得到 512k。在与该领域的许多其他客户交谈后,他们都讲述了同样的故事。经过大约一年的服务,网络速度下降到零,更换硬件和与技术支持交谈并不能解决问题。
我们中的一些技术人员已经就此问题寻求他们的技术支持,我们被告知问题是“延迟中断”。Google 搜索“延迟中断”只会返回与同一服务的客户在致电寻求支持时被告知的内容有关的结果。在我上次通话时,我告诉这位女士,我曾与她谈过这件事,她非常坚持延迟中断是真实存在的。那么,什么是延迟中断?
outage ×10
networking ×2
adsl ×1
apache-2.2 ×1
bgp ×1
dhcp-server ×1
http ×1
latency ×1
linux ×1
mysql ×1
nic ×1
reverse-dns ×1
sla ×1
slackware ×1