SMART 警告我，但我不相信它

Question

SMART 警告我，但我不相信它

Sam*_*amK 7 hardware linux monitoring smart

我有一个带有四个三星硬盘的服务器。所有驱动器都是同一型号，并且是一起购买的。驱动器为 SAMSUNG HE753LJ，固件为 1AA01113。

我收到 SMART 错误，但我觉得 smartctl 不了解他从硬盘驱动器获得的价值。

这是 SMART 测试的结果：

asgard:~# smartctl -H /dev/sdb
smartctl 版本 5.38 [i686-pc-linux-gnu] 版权所有 (C) 2002-8 Bruce Allen
主页是 http://smartmontools.sourceforge.net/

=== 开始读取智能数据部分 ===
SMART 整体健康自我评估测试结果：失败！
预计在 24 小时内出现驱动器故障。保存所有数据。
失败的属性：
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time 0x0007 001 001 011 Pre-fail Always FAILING_NOW 60340

我不相信 SMART，因为：

一年多以来，所有磁盘都将在不到 24 小时内发生故障。什么都还没炸。
维基百科说“启动时间是主轴启动的平均时间（从零 RPM 到完全运行 [毫秒]）。 ”这意味着驱动器需要大约一分钟才能唤醒？！

我想遵循 smartctl 的建议并更改这些磁盘，但我只是不相信我阅读的结果。

你怎么看待这件事？你会怎么办？

谢谢你的帮助。

Answer 1

Mar*_*und 7

所有驱动器都是同一型号，并且是一起购买的。

这是一个定时炸弹。

根据来自 SMART 的消息和上面的引用，您应该立即更换磁盘。

由于驱动器是一起购买的并且是同一型号，因此它们可能具有相同的弱点，并且可能在相同条件下同时出现故障......

RAID 的主要概念是磁盘在不同时间发生故障，让您有机会一次交换一个磁盘，避免数据丢失。

其他人报告说，来自同一生产批次的 RAID 配置中的整个相同磁盘阵列同时出现故障，因此受到同样的弱点。

我再怎么强调都不为过：您需要开始更换驱动器！

与批次相关的故障虽然很危险，但并不常见，并且与阵列中的磁盘数量成正比。这里的统计数据 http://www2.cs.uh.edu/~paris/MYPAPERS/StorageSS06.pdf (5认同)

Answer 2

And*_*ndy 7

我有一个备用驱动器，我仍然可以从中启动，但 SMART 检查每次启动失败并需要软重置，已经有多年了，但它只是一个转储，而不是系统磁盘！因此，尽管 SMART 错误可能会持续很长时间，但在生产中应该始终注意它们，因为风险远远超过成本、时间和数据完整性的好处。谷歌研究了 100,000 个磁盘，发现：

SMART 数据（自我监控、分析和报告技术）可用于确定驱动器是否会发生故障。多达 30% 的驱动器表明 SMART 错误最终出现故障，并且“错误”驱动器继续使用的时间越长，崩溃的可能性就会越来越大。也就是说，许多驱动器在其生命中的某个时刻表现出 SMART 错误。

所以它并不总是一个可靠的指标。然而，SMART 错误会在初始检测后立即显着增加磁盘崩溃的可能性：

在 Google 对超过 100,000 个驱动器的研究表明，整体上对 SMART 状态的整体预测价值很小，但表明某些 SMART 实施跟踪的某些信息子类别确实与实际故障率相关 - 特别是在第一次出现后的 60 天内驱动器上出现扫描错误，平均而言，驱动器发生故障的可能性是没有发生此类错误时的 39 倍。

所以统计上你的磁盘可能没问题，因为它已经超过了 60 天的限制。

尽管存在这些强相关性，我们发现仅基于 SMART 参数的故障预测模型的预测准确性可能会受到严重限制，因为我们的大部分故障驱动器都没有显示任何 SMART 错误信号

但是你愿意继续冒险吗？我会尽快更换磁盘以避免不得不在凌晨起床。

Answer 3

Dav*_*ett 6

SMART overall-health self-assessment test result: FAILED!

Run Code Online (Sandbox Code Playgroud)

这部分不是由 smartctl 解释的（当然，假设我理解正确）-该驱动器告诉 smartctl 对其当前状态（无论出于何种原因）不满意，而 smartctl 只是向您回应该警告。即使它误解了启动时间读数，我也不认为它对“自我评估测试”读数进行了任何解释。

我建议尽快将您的数据移出该驱动器，最好在下一次电源循环之前，以防旋转问题是真实的并且可能会变得更糟。

归档时间：	16 年前
查看次数：	4770 次
最近记录：	16 年前