工程师们正在使用炸药清除我们办公楼外的坚硬岩石。我们应该采取什么对策?

Chr*_*ale 123 disaster-recovery server-room

我们的大楼位于约。距离爆炸装置 100 米。它们每天发生几次,并且确实震动了整个建筑物。这将持续很多天,爆炸应该会变得更强。

我们的服务器机房没什么特别的。其中一个将所有机架都放在坚硬的混凝土上,而另一个则有一个活动地板(允许电缆从其下方穿过)。

有没有人对我们有任何提示、对策或最佳做法?

目前我们正在考虑以下对策:

  • 服务器机房状态灯(高清灯、电源等)的每日报告。
  • 每晚检查最重要服务器上的磁盘扫描
  • 订购额外的备用硬盘驱动器

编辑:这里有很多好的答案!然而,需要接受一个。在此编辑时投票最高的答案将被接受。

pau*_*ska 127

如果我是你,我会打电话给公司的保险公司,让他们安装一个加速度计。

这样 - 保险公司会知道你不是摇晃磁盘的人,而且保险公司会确切地知道每次爆炸何时结束,以防您的 SAN 在同一时刻死亡。

(我们这样做了。)

  • OP 不清楚他在哪里,但是当爆破发生在其他建筑物附近时,承包商有时需要监测其他建筑物中感受到的加速度,即通过在其中放置一个加速度计。 (15认同)

squ*_*man 94

现在是确保您已验证备份解决方案的时候了。如果您的备份损坏或以其他方式变得无用,世界上所有的替换硬件都不会拯救您。

  • 除非您测试还原,否则您不知道备份的质量。只是不要检查日志以确保备份完整 - 验证您可以恢复。 (8认同)
  • 我怀疑他说“验证您的备份解决方案”时的意思是,但我想明确地说出来是好的。:-) (2认同)

vor*_*aq7 52

除了所有其他出色的建议(特别是异地备份)之外,您还应该考虑在可行的范围内对房间进行防尘:门周围的防风雨条、窗户周围的胶带等。
如果您有外部进气口,则计划更换爆破结束后过滤。

尽管如此,我不会在每晚的磁盘扫描上浪费时间/资源,也不会在备用硬盘上浪费钱(也许可以为最关键的机器购买一两个,但请记住,如果需要,您可以过夜驱动器)。
服务器设备出奇的坚固,在一些非常糟糕的条件下将继续运行多年。很有可能你会没事的。

  • 我必须为您+1 只因为*服务器设备非常强大*。我们在马路对面的一个工地上找了建筑商,他们在地面上敲打了大约 6 周,我们的整个建筑都在晃动,一切都在晃动(以至于东西会从你的桌子上震动到地板上)。我很恐慌,但这完全不是事件。这个问题当时会很好:-) (12认同)
  • 硅谷是世界上地震最频繁的地区之一。在那里工作的东西_将_在几次震动中幸存下来。 (4认同)
  • 计算机通常会遭受相当严重的打击(想想每天有多少人将笔记本电脑掉下来继续工作)——这些东西并不像我们的真空管和铁氧体磁芯历史让我们相信的那么脆弱(尽管他们仍然应该得到很好的对待,以免他们不合时宜地死去) (2认同)

Ste*_*ski 27

ISO-Base平台上安装您的服务器机架。这将使您的服务器机架免受地面冲击,并使您的系统即使在移动的情况下也能正常运行。

这并不容易,但很有效。尤其是在地震带。

要查看 ISO-Base 的实际效果,请观看此视频,该视频展示了地震模拟期间服务器机架中的效果。一个机架安装在 ISO-Base 上,第二个机架没有安装。

  • 现在有点晚了。但有趣的想法。 (2认同)
  • 我个人认为短期爆破有点矫枉过正,但它看起来像一个很酷的系统。 (2认同)

Rob*_*obW 18

电源:如果断电,机架中的所有服务器、存储、SAN(等)都会自行重启吗?还是只有在您按下“开”按钮后才会出现?

这有两个原因:

  • 如果电源在几个小时内不稳定,您可能希望让您的服务器停机,直到事情稳定下来 - 不太可能因时间错误的电源峰值而导致服务器瘫痪。
  • 您最后一次计算一次重新启动机架中所有设备所需的安培数是什么时候?你有足够的电流来处理它吗?

您还可以建议您的用户每天晚上关闭计算机并拔掉电源。

  • 三个小字母:UPS(我不是指运输公司)。进行良好的爆破不太可能导致停电,但仍然没有理由不为日常问题提供良好、稳定的动力…… (10认同)

小智 13

大多数人谈论备份 - 很少有人谈论恢复。确保从备份中恢复尽可能简单。尤其是在时间紧迫的情况下。

如果您有主机托管复制,请将它们切换为主机(如果时间允许),因为您建筑物中的那些更容易受到攻击。他们也更有可能在工作时间倒下(显然)。

我也建议在家工作。

  • 非常非常好的观点。我见过许多“备份计划”失败,因为它们不包括有效的“恢复计划”。两天的业务停电可能意味着要向您的客户支付巨额费用。应从经济的角度考虑恢复程序,并将其整合到应急计划中。 (2认同)

Sjo*_*erd 12

演奏重金属以替换爆炸时的坚硬岩石。无论如何,硬摇滚已经过时了。;)

更严重的是,也许拐角处有一家 DJ 设备店,您可以在那里买到一些减震/隔离的东西。许多(舞蹈音乐)DJ 在播放唱片时也有类似的困难(例如,将一根细针放在一个细小的旋转槽中,有点类似于磁盘驱动器等敏感设备),而周围的人群则在跳跃和踩踏在地板上同步(“同步”很重要;如果您从未听说过塔科马海峡大桥事件,您应该考虑观看此剪辑)。撕开几个垃圾袋以提供额外的防尘保护。

  • 我打算建议这个。大多数俱乐部只是使用坐在泡沫上的混凝土花园拍打。简单但非常有效。 (2认同)

bmi*_*ike 9

我很惊讶没有人提到事情的过程方面。

这是回顾您为业务连续性所做的计划的绝佳机会。如果您必须搬家一天或一周,您有什么计划?您是否有最新的图纸计划以及哪些系统具有优先修复权?管理层是否被告知您确实有计划并意识到

对服务器机房造成严重破坏的爆炸加速可能是您最不担心的。您的公用事业可能面临更高的风险,除非您能够自给自足,拥有现场电力和强大的连接(假设您不是自给自足的,并且只支持当地员工)。

如果水管、电源或互联网访问出现故障,您能幸免于难吗?您是否已致电您的互联网提供商,看看他们是否知道爆炸事件,并已准备好在您的公用事业中断时通过备用路线恢复服务。您会比我们猜测的更了解您的具体情况,但您应该有一份您需要的所有内容的清单,并解决“如果这种情况意外消失怎么办?” 对于每个。

只是在你的头脑/纸上回顾一下这将帮助你知道你是否有任何需要稍后工作的弱点,如果你的组织没有任何书面记录,也许可以在整个链条上进行交流。从两页的执行摘要开始 - 仅供参考,以便每个人都知道您在做什么。

是的 - 手头有一些额外的硬盘驱动器/备件很好,但我会更担心我看不到或不能直接控制的东西。

这个过程练习的真正好处是对您当前的监控系统进行现实检查。一旦您计划了一些基本场景,您就会为意外情况做好更好的准备。无论您为何遭遇停电,对您期望生存和不生存的内容进行简短总结都会非常有用,并且还有助于推动您努力改进 24/7 全天候监控,而不是在基础开始动摇时。


小智 9

我曾经在一个正在回收的矿场上运行计算机。随着开垦越来越靠近办公室,数据室几乎每天都在一天结束时摇晃。

我的对策包括将机架移动到一些设计用于减震的硬橡胶脚上。它们是 Manson 制造的,我只是估计了机架的重量并购买了合适的支脚。这似乎修复了机架内的任何移动。困难的部分是轻轻地提起架子,使脚滑到下面。

此外,正如其他人提到的,我有我测试过的备份,并保存在异地。

这些服务器持续了 3 年,不断震动,没有与硬件相关的崩溃。办公室里的台式机性能不佳,其中 2 台出现了灾难性的硬盘故障。


jft*_*uga 8

我还没有看到有关备份的内容,但请确保将它们带离现场!您可能还需要备份交换机、防火墙等配置。


Fre*_*eit 5

询问进行爆破的工程公司。很有可能他们在现场拥有自己的设备,或者过去曾对邻近的服务器机房造成爆炸损坏。


Edw*_*uck 5

重读BOFH编年史。它会给你一些关于如何让爆炸停止的实用想法。其他一切都只是一种对策。

就对策而言,其他人都提到了备份,所以我将避免重复这个好建议。

每天检查您的raid 5 阵列,现在有可用的备用磁盘。所有这些振动对主轴都不利,令人惊讶的是,由于无人听到的警报和第二次主轴故障,可保存阵列丢失的频率如此之高。

也许我很乐观,但进行爆破的工程师通常不会针对“破坏邻居的基础”能量水平的振动水平,所以我最担心计算机的移动部件,也就是磁盘。