HDD SMART 数据的可靠性如何？

Question

HDD SMART 数据的可靠性如何？

and*_*lst 8 monitoring hard-drive smart

根据SMART数据，你可以判断一个磁盘的健康状况，至少是这个想法。例如，如果我sudo smartctl -H /dev/sda在我的 ArchLinux 笔记本电脑上运行，它会说硬盘驱动器通过了自检，并且基于此它应该是“健康的”。

我的问题是这些信息有多可靠，或者更具体地说：

如果根据 SMART 数据该磁盘是健康的，尽管如此，该磁盘突然发生故障的几率是多少？这假设故障不是由于某些无法预测的灾难性事件造成的，例如笔记本电脑掉在地板上导致驱动器磁头撞击磁盘。
如果 SMART 数据没有表明磁盘状况良好，那么磁盘在一段时间内发生故障的几率是多少？是否有可能出现误报以及这些误报有多普遍？

当然，无论如何我都会备份。我主要是好奇。

Answer 1

Ton*_*nny 11

根据我的经验（在服务器运行 20 年，我处理过的所有服务器中必须处理大约 5.000 个磁盘）SMART 很有用，但不是灵丹妙药。

如果您收到 SMART 错误，请尽快更换磁盘。磁盘在 4-8 周内出现严重问题的可能性非常高。（在这方面经常提到的 Google 研究与我的个人经验非常相关。）
通常，在磁盘变得真正有问题之前，您有一周或两周的时间。

如果您根本没有收到 SMART 错误，磁盘仍然会在没有任何警告的情况下发生故障，尽管这在服务器中很少见。我看到每年可能有 3 或 4 个这样的案例。虽然我们因 SMART 错误而更换驱动器，但每月大约 25 次。
这可能是因为服务器磁盘通常是 RAID 阵列的一部分，并且在整个磁盘上看到连续的读/写模式。这会定期“执行”（和检查）磁盘的每个部分。
如果服务器在连续运行数月/数年之后切换了一段时间，则磁盘出现故障（没有预先警告）的最大可能性是在启动时。

在消费设备（非服务器、笔记本电脑/台式机驱动器）中，我看到很多磁盘出现读取错误，但不知何故没有以 SMART 数据结束，即使 Windows 在事件日志中记录了这些错误。（SMART 仅在从 Windows 执行完整的 chkdsk 后才记录它们。）
这让我相信，在许多消费者驱动器中，SMART 阈值非常低。这可能是（大 IF）有意在这个残酷的业务中保持较低的 RMA 数字。
许多消费者无论如何都不会注意到偶尔出现的坏块，直到为时已晚。（有多少消费者知道在哪里可以找到事件日志？这是您可以在 Windows 中看到磁盘错误的唯一地方。）
根据我的经验，如果消费者磁盘有问题（SMART 或其他），请复制它的数据并立即更换。当它给出这些错误时，它已经死了。

BeowulfNode42 链接到的谷歌研究证实了这一点。很多人误读了这个，但它相当于“如果SMART说它变坏了，它就会变坏。如果SMART说它没有变坏，它可能仍然变坏了。”。 (5认同)

归档时间：	12 年，2 月前
查看次数：	13397 次
最近记录：	12 年，2 月前