是否有理由在服务器出现故障之前更换硬盘?

Spi*_*ros 11 hardware hard-drive

只是一个简单的问题:是否有理由在 x 年后在服务器出现故障之前更换硬盘驱动器(它最终会在某个时候),或者我应该将其放置直到它出现故障?我对实际的服务器管理经验很少,所以我想知道......

Bar*_*rim 8

更改它的一个重要原因是,如果您想将另一项任务添加到您的待办事项列表中,同时增加出现问题的机会。

除了开玩笑,我真的没有听说过提前更换驱动器的任何理由。如果您有 RAID,那么您已经有了适当的保护(假设您有不错的备份),并且您不会以死驱动器的形式产生废物以进行处理,您也不必不必要地努力消除驱动器中的敏感数据。您不会在新驱动器上花费额外的钱,并且您仍然不会主动预防无论如何仍然可能出错的事情,例如有故障的驱动器控制器,这作为驱动器故障源并不常见,但可能会发生。

另一方面,这可能会帮助您发现未在 RAID 单元上触发警报的不可恢复的驱动器错误,就像我们在 RAID 5 中发生的那样。在这种情况下,适当的备份将帮助您恢复。)考虑到当今更大的驱动器容量和不可恢复的容错能力的 RAID 级别将帮助我们,如果没有,备份可以挽救这一天。

大多数管理员都有一个不错的 RAID 和备份计划,因此没有必要通过不必要地更换驱动器来产生额外的浪费。


Joe*_* H. 6

我可能会考虑的唯一一次是,如果我有一堆来自同一批次的磁盘,并且该批次中的其他磁盘开始出现故障,那么我可能会考虑它。

如果我空间紧张,那么当然,我会这样做——但除了因为它变老之外别无他法?不,因为平均而言,第一年的失败率与任何其他年份的失败率相似。(请注意,该图将第一年分为 3 个月、6 个月、1 年,但您必须将它们全部加在一起才能获得 1 年失败的机会)。当考虑到高磁盘利用率时,它在第一年失败的可能性比接下来三年的总和还要多。

与后期驱动器故障的唯一相关性是在较热的房间中,我们让服务器机房保持凉爽。


joe*_*rty 5

我完全赞成积极主动,但我从未这样做过,也从未听说有人这样做过。大概你有某种类型的 RAID 设置,并且有问题系统的定期发生的有效备份。

  • +1,从来没有考虑过。更换磁盘,以防万一,并有意触发阵列重建似乎不是“锻炼”剩余生产磁盘的最佳方式。如果重建失败,更难向老板解释为什么系统会宕机。 (5认同)
  • 我更换了有 SMART 错误的磁盘,但我认为它们失败了,即使它们在技术上仍然有效。 (3认同)