适用于最小企业的容错服务器结构

bwe*_*rks 6 virtualization disaster-recovery high-availability windows-sbs system-center-essentials

我正试图弄清楚如何为一家受到荒谬硬件问题困扰的小型企业做些什么。目前,这项业务在五六台台式机上运行;没有服务器基础设施到位。最重要的是,我不是在修饰这一点,他们今年迄今为止已经看到了四次硬件故障,这让他们快要疯了。

我已经与他们讨论过安装小型企业服务器的想法(他们是一家微软商店),他们接受了这个想法。我还计划使用 System Center Essentials 弄湿我的脚,以密切关注事物。然后重点是确保该服务器保持可用。

另外,我刚刚阅读了另一个高可用性线程。就像那个帖子里的那个人一样,我对 IT 很陌生,而是来自编程背景。

想到了一些想法:

  • 带热插拔编辑的简单 raid-5 和热备用
  • 获得两台更便宜的服务器机器,配置为运行一台带有热迁移的虚拟化服务器(我已经阅读了一些资料,但遗憾的是我不知道 SBS Standard 和 SCE 是否会支持这一点)
  • 故障转移集群?我从另一个线程中得到了这个术语,但过去没有接触过它。

在这方面有最佳实践吗?企业主愿意为此稍微掏腰包,因为他开始害怕停机,但我没有任何经验来引导我走向另一个方向。

我很欣赏你的智慧!

编辑:为了提供有关他们遇到的问题的更多详细信息,这是莫名其妙的失败的奇怪组合。

  • 机箱上的开关无法打开系统:主板有板载开关,这提供了一个权宜之计的解决方案,但是关闭机箱并没有解决问题。后来,更换主板也没有解决问题。
  • 两台相同的机器在其 raid-1 阵列中都遇到了驱动器故障,并且两台机器的组装时间都不超过 5 个月。
  • 引导失败问题:raid-1 中的一个系统根本无法引导。不幸的是,我没有写下最初的错误消息,但在我的笔记中,Windows 修复和恢复中的“无法保存启动选项”让我找到了 这个线程,这支持了我的怀疑,即这是一个与硬件相关的问题。

编辑:此外,这些机器在一系列家庭办公室中运行,因此住宅级电气正在发挥作用。我想这可能比我认为的更重要。然而,这些机器都是在桌子上(字面意思是台式机!)而不是在地板上运行的。我不相信涉及灰尘。

Gre*_*egD 5

首先,SCE 对于 5-6 台台式机来说太过分了。WSUS 可能是更好的选择,而且是免费的。

你还没有说到底是什么失败了。它是机器的一部分吗?这是一个多尘的环境吗?我的主要支持环境是大约 40 个用户和大约 10 个服务器(不包括虚拟化)。我们购买戴尔机器(Optiplex 的),在过去的 5 年里,我们在所有这些东西上可能发生了4 次硬件故障。所以你在工作站上看到的是不正常的。

他们是否有合适的服务器机房/服务器位置(至少有冷却和灰尘不多?)

带热插拔的 Raid-5 是在此服务器上运行的一种廉价方式,并提供一些防止硬盘驱动器故障的保护。我还会添加冗余电源(便宜)和 UPS。

  • 服务器类硬件
  • Raid on hard drive (edited to add) 有一个可用的热备件可能是矫枉过正,因为大多数保修期内的驱动器可以在一夜之间。例如,raid-5 中有 3 个驱动器,您可能会丢失一个驱动器并在新驱动器到达之前一切正常。然而,失去>1 个驱动器,无论你怎么看,你都会被搞砸。
  • 冗余电源
  • 适当的保修(例如,对于戴尔,我们可以获得下一个工作日并保留您的硬盘,因为我们可以忍受我们的任何服务器停机一天。)
  • 备份方案

故障转移集群?您开始进入一个对于如此小的环境来说既昂贵又复杂的领域。请记住,在如此小的环境中,虽然正常运行时间很重要,但记住您希望使事情尽可能简单也很重要。

至于工作站,解决这个问题(你还不是很清楚)。也许您可以购买一个“额外”的工作站,上面有您的基本映像,它只是坐在那里从 WSUS 获取您的所有更新,如果他们的一个工作站死机,您可以将其用作换出机器(这就是我们所做的) . 我们还有一大堆零件,我们可以交换这些零件来更换最常见的零件(电源、内存、硬盘驱动器),直到保修零件到货。

备份。再多的冗余也无法替代良好的备份。你在这里有很多选择。在如此小的环境中,您可以查看许多(想到 Mozy、Carbonite)在线解决方案,这些解决方案以合理的成本同时处理异地和自动化。您还可以采用磁带解决方案,并使用 Iron Mountain 之类的服务在场外保管磁带。 无论您做什么,都不要将磁带带回家!特别是如果他们有关于他们的有价值的信息(SS# 等)