我刚刚在周日早上 4.59 点发生了服务器中断,并查看了可追溯到 2006 年的正常运行时间记录,除了晚上 11 点到早上 6 点之间发生的 20 次中断中有 4 次中断。(仅查看 Web 和数据库服务器上的计划外停机时间,而不查看内部 LAN 上的应用程序服务器。)
其他人是否也发现他们的服务器有类似的行为?这只是侥幸吗?
编辑:这是因为在晚上 11 点到早上 6 点之间发生了如此多的中断(这些是计划外的,不是计划内的维护,并且发生在我们的硬件上,而不是 ISP 的网络上),这让我想知道只是我们...
服务器在下午 1 点到 10 点左右之间的访问者最繁忙,而数据库备份全天发生,每天早上 4.30 左右发生大备份(压缩使用更多 CPU)。但是在此窗口期间的任何时间都发生了中断(这 20 次中断是发生在 5 个服务器中的 1 个或 2 个防火墙上的事件 - 其中大约三分之一是由 2 台不同机器的硬盘驱动器故障造成的)。没有任何迹象表明服务器正在做任何事情,因为那是凌晨。
And*_*ber 16
典型的“工作时间”是每周不超过 40 小时。在世界的某些地方更少。一周总共有 168 小时。40/168 = 一周中少于 24% 的时间是“工作时间”。
这表明,24/7 全天候运行的系统在非工作时间发生故障的频率是工作时间的 3 倍。
显然,还有许多其他考虑因素可以考虑到这一点。多次轮班、高峰时间(对许多人来说,这可能会使故障更倾向于非工作时间)等。
Mad*_*ter 10
是的,我们找到了,不,这不是侥幸。你的服务器讨厌你,我敢肯定。我知道我的服务器讨厌我,虽然他们很高兴看到我死了,但如果他们觉得自己在衰退,我敢肯定他们会坚持下去,直到他们的 ntp 守护进程在他们耳边低声说现在是半夜了,现在是个好消息是时候死了。他们知道在 1030 点失败会毁了我的一天,但是在 0345 失败会毁了我的夜晚,在黑暗中把我拖到伦敦,第二天也会毁了。他们喜欢那个。
由于硬盘故障,公司防火墙在我最不方便的时候出现故障后,我将磁盘控制器板与硬盘分开,将其切成四块,然后磨损 - 并且仍然磨损 - 四分之一的板,例如一个头皮,挂在我的“办公室链”上(挂绳上挂着我在各个站点使用的各种访问令牌)。我敢肯定,在他们看来,看到这个可怕的遗物后,它的兄弟和姐妹服务器在很大程度上保持一致,从而清楚地显示了失败的惩罚。
(万一有人遇到幽默感失败,这篇文章就是个笑话;除了关于硬盘控制器的一点,这绝对是真的,而且有效。)