SMART 警告我,但我不相信它

Sam*_*amK 7 hardware linux monitoring smart

我有一个带有四个三星硬盘的服务器。所有驱动器都是同一型号,并且是一起购买的。驱动器为 SAMSUNG HE753LJ,固件为 1AA01113。

我收到 SMART 错误,但我觉得 smartctl 不了解他从硬盘驱动器获得的价值。

这是 SMART 测试的结果:

asgard:~# smartctl -H /dev/sdb
smartctl 版本 5.38 [i686-pc-linux-gnu] 版权所有 (C) 2002-8 Bruce Allen
主页是 http://smartmontools.sourceforge.net/

=== 开始读取智能数据部分 ===
SMART 整体健康自我评估测试结果:失败!
预计在 24 小时内出现驱动器故障。保存所有数据。
失败的属性:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time 0x0007 001 001 011 Pre-fail Always FAILING_NOW 60340

我不相信 SMART,因为:

  • 一年多以来,所有磁盘都将在不到 24 小时内发生故障。什么都还没炸。
  • 维基百科说“启动时间是主轴启动的平均时间(从零 RPM 到完全运行 [毫秒])。 ”这意味着驱动器需要大约一分钟才能唤醒?!

我想遵循 smartctl 的建议并更改这些磁盘,但我只是不相信我阅读的结果。

你怎么看待这件事?你会怎么办?

谢谢你的帮助。

Mar*_*und 7

所有驱动器都是同一型号,并且是一起购买的。

这是一个定时炸弹。

根据来自 SMART 的消息和上面的引用,您应该立即更换磁盘。

由于驱动器是一起购买的并且是同一型号,因此它们可能具有相同的弱点,并且可能在相同条件下同时出现故障......

RAID 的主要概念是磁盘在不同时间发生故障,让您有机会一次交换一个磁盘,避免数据丢失。

其他人报告说,来自同一生产批次的 RAID 配置中的整个相同磁盘阵列同时出现故障,因此受到同样的弱点。

我再怎么强调都不为过:您需要开始更换驱动器!

  • 与批次相关的故障虽然很危险,但并不常见,并且与阵列中的磁盘数量成正比。这里的统计数据 http://www2.cs.uh.edu/~paris/MYPAPERS/StorageSS06.pdf (5认同)

And*_*ndy 7

我有一个备用驱动器,我仍然可以从中启动,但 SMART 检查每次启动失败并需要软重置,已经有多年了,但它只是一个转储,而不是系统磁盘!因此,尽管 SMART 错误可能会持续很长时间,但在生产中应该始终注意它们,因为风险远远超过成本、时间和数据完整性的好处。谷歌研究了 100,000 个磁盘,发现

SMART 数据(自我监控、分析和报告技术)可用于确定驱动器是否会发生故障。多达 30% 的驱动器表明 SMART 错误最终出现故障,并且“错误”驱动器继续使用的时间越长,崩溃的可能性就会越来越大。也就是说,许多驱动器在其生命中的某个时刻表现出 SMART 错误。

所以它并不总是一个可靠的指标。然而,SMART 错误会在初始检测后立即显着增加磁盘崩溃的可能性:

在 Google 对超过 100,000 个驱动器的研究表明,整体上对 SMART 状态的整体预测价值很小,但表明某些 SMART 实施跟踪的某些信息子类别确实与实际故障率相关 - 特别是在第一次出现后的 60 天内驱动器上出现扫描错误,平均而言,驱动器发生故障的可能性是没有发生此类错误时的 39 倍。

所以统计上你的磁盘可能没问题,因为它已经超过了 60 天的限制。

尽管存在这些强相关性,我们发现仅基于 SMART 参数的故障预测模型的预测准确性可能会受到严重限制,因为我们的大部分故障驱动器都没有显示任何 SMART 错误信号

但是你愿意继续冒险吗?我会尽快更换磁盘以避免不得不在凌晨起床。


Dav*_*ett 6

SMART overall-health self-assessment test result: FAILED!
Run Code Online (Sandbox Code Playgroud)

这部分不是由 smartctl 解释的(当然,假设我理解正确)-该驱动器告诉 smartctl 对其当前状态(无论出于何种原因)不满意,而 smartctl 只是向您回应该警告。即使它误解了启动时间读数,我也不认为它对“自我评估测试”读数进行了任何解释。

我建议尽快将您的数据移出该驱动器,最好在下一次电源循环之前,以防旋转问题是真实的并且可能会变得更糟。