HP Proliant G6 报告 SSD 驱动器故障 - 监控的替代策略?

Dei*_*m0s 5 monitoring ssd smart hp hp-proliant

我想得到您对几天前我遇到的一个有争议的情况的反馈。我的任务是使用 HP Proliant G6 进行开发,并在 RAID1 配置中使用 2 个新的(不到 2 个月,以前从未使用过)非 HP SSD。它们用于密集型开发任务(每天写入约 500GB);RAID5 中也有常规 HDD,但我们在这里讨论 RAID1 阵列。

  • 三星SSD 840 PRO系列
  • 浦科特 PX-256M5Pro

两者的 smartctl 输出均可在此处获得:https://gist.github.com/anonymous/cf8a5208a7315440f796

过去的相关问题

Plextor 驱动器一直受到报告的过热状况的影响,我认为这是因为它不是原装部件

我曾经见过一次服务器偶尔重新启动后重建 RAID1,但无法解释其原因。

失败事件

几天前,Plextor 磁盘被报告为简单的“故障”状态: physicaldrive 1I:1:1 (port 1I:box 1:bay 1, Solid State SATA, 256.0 GB, Failed)

假阳性?

因此,我拔掉了它,检查了 SMART 输出并运行了完整的测试(请参阅上面的 smartctl 输出)。测试通过了,更糟糕的是,将驱动器放回原处可提供功能完美的 RAID1 阵列。

这很尴尬。

替代监控?

我不知道如何让 P410i 告诉我“失败”状态的具体原因是什么(我认为不可能),并且我知道这些是非原装 HP 部件(从而使我的付费 HP 支持失效),但是对于这个非关键任务服务器,我想看看是否仍然可以继续使用非惠普磁盘,并且仍然对其健康状态进行某种监控。

你有什么意见?我有 3 个问题:

  • 仅当与原装部件一起使用时,HP 控制器监控状态才可信吗?(这很容易)
  • 这些(完全非高质量)SSD 客观上状况良好吗?
  • 我应该对 SMART 测试的结果给予 100% 的信任吗?

提前致谢

eww*_*ite 5

您的 SSD 可能运行良好,但 HP Smart Array P410 RAID 控制器并非与每个SSD 兼容。

特别是,某些 SSD 向控制器报告不正确的温度属性,从而导致机箱风扇和系统散热问题。此外,该控制器上使用的任何 SATA 设备的速度都会从 6Gbps 降频至 3Gbps。所以你正在失去带宽潜力。

显然,这种组件组合是不匹配的。您可以使用已知良好的适用于控制器的 SSD(HP 品牌的 Sandisk/Pliant/Intel/Samsung/STEC),也可以尝试使用第 3 方驱动器,直到找到一个可以工作的驱动器。我推荐英特尔和OWC。

我在这里介绍了一些运行良好的驱动器选项:

SSD 驱动器是否与机械驱动器一样可靠(2013 年)?

和这里:

惠普存储阵列 - 多通道?