Sam*_*amK 7 hardware linux monitoring smart
我有一个带有四个三星硬盘的服务器。所有驱动器都是同一型号,并且是一起购买的。驱动器为 SAMSUNG HE753LJ,固件为 1AA01113。
我收到 SMART 错误,但我觉得 smartctl 不了解他从硬盘驱动器获得的价值。
这是 SMART 测试的结果:
asgard:~# smartctl -H /dev/sdb smartctl 版本 5.38 [i686-pc-linux-gnu] 版权所有 (C) 2002-8 Bruce Allen 主页是 http://smartmontools.sourceforge.net/ === 开始读取智能数据部分 === SMART 整体健康自我评估测试结果:失败! 预计在 24 小时内出现驱动器故障。保存所有数据。 失败的属性: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0007 001 001 011 Pre-fail Always FAILING_NOW 60340
我不相信 SMART,因为:
我想遵循 smartctl 的建议并更改这些磁盘,但我只是不相信我阅读的结果。
你怎么看待这件事?你会怎么办?
谢谢你的帮助。
所有驱动器都是同一型号,并且是一起购买的。
这是一个定时炸弹。
根据来自 SMART 的消息和上面的引用,您应该立即更换磁盘。
由于驱动器是一起购买的并且是同一型号,因此它们可能具有相同的弱点,并且可能在相同条件下同时出现故障......
RAID 的主要概念是磁盘在不同时间发生故障,让您有机会一次交换一个磁盘,避免数据丢失。
其他人报告说,来自同一生产批次的 RAID 配置中的整个相同磁盘阵列同时出现故障,因此受到同样的弱点。
我再怎么强调都不为过:您需要开始更换驱动器!
我有一个备用驱动器,我仍然可以从中启动,但 SMART 检查每次启动失败并需要软重置,已经有多年了,但它只是一个转储,而不是系统磁盘!因此,尽管 SMART 错误可能会持续很长时间,但在生产中应该始终注意它们,因为风险远远超过成本、时间和数据完整性的好处。谷歌研究了 100,000 个磁盘,发现:
SMART 数据(自我监控、分析和报告技术)可用于确定驱动器是否会发生故障。多达 30% 的驱动器表明 SMART 错误最终出现故障,并且“错误”驱动器继续使用的时间越长,崩溃的可能性就会越来越大。也就是说,许多驱动器在其生命中的某个时刻表现出 SMART 错误。
所以它并不总是一个可靠的指标。然而,SMART 错误会在初始检测后立即显着增加磁盘崩溃的可能性:
在 Google 对超过 100,000 个驱动器的研究表明,整体上对 SMART 状态的整体预测价值很小,但表明某些 SMART 实施跟踪的某些信息子类别确实与实际故障率相关 - 特别是在第一次出现后的 60 天内驱动器上出现扫描错误,平均而言,驱动器发生故障的可能性是没有发生此类错误时的 39 倍。
所以统计上你的磁盘可能没问题,因为它已经超过了 60 天的限制。
尽管存在这些强相关性,我们发现仅基于 SMART 参数的故障预测模型的预测准确性可能会受到严重限制,因为我们的大部分故障驱动器都没有显示任何 SMART 错误信号
但是你愿意继续冒险吗?我会尽快更换磁盘以避免不得不在凌晨起床。
SMART overall-health self-assessment test result: FAILED!
Run Code Online (Sandbox Code Playgroud)
这部分不是由 smartctl 解释的(当然,假设我理解正确)-该驱动器告诉 smartctl 对其当前状态(无论出于何种原因)不满意,而 smartctl 只是向您回应该警告。即使它误解了启动时间读数,我也不认为它对“自我评估测试”读数进行了任何解释。
我建议尽快将您的数据移出该驱动器,最好在下一次电源循环之前,以防旋转问题是真实的并且可能会变得更糟。
| 归档时间: |
|
| 查看次数: |
4770 次 |
| 最近记录: |