and*_*lst 8 monitoring hard-drive smart
根据SMART数据,你可以判断一个磁盘的健康状况,至少是这个想法。例如,如果我sudo smartctl -H /dev/sda
在我的 ArchLinux 笔记本电脑上运行,它会说硬盘驱动器通过了自检,并且基于此它应该是“健康的”。
我的问题是这些信息有多可靠,或者更具体地说:
当然,无论如何我都会备份。我主要是好奇。
Ton*_*nny 11
根据我的经验(在服务器运行 20 年,我处理过的所有服务器中必须处理大约 5.000 个磁盘)SMART 很有用,但不是灵丹妙药。
如果您收到 SMART 错误,请尽快更换磁盘。磁盘在 4-8 周内出现严重问题的可能性非常高。(在这方面经常提到的 Google 研究与我的个人经验非常相关。)
通常,在磁盘变得真正有问题之前,您有一周或两周的时间。
如果您根本没有收到 SMART 错误,磁盘仍然会在没有任何警告的情况下发生故障,尽管这在服务器中很少见。我看到每年可能有 3 或 4 个这样的案例。虽然我们因 SMART 错误而更换驱动器,但每月大约 25 次。
这可能是因为服务器磁盘通常是 RAID 阵列的一部分,并且在整个磁盘上看到连续的读/写模式。这会定期“执行”(和检查)磁盘的每个部分。
如果服务器在连续运行数月/数年之后切换了一段时间,则磁盘出现故障(没有预先警告)的最大可能性是在启动时。
在消费设备(非服务器、笔记本电脑/台式机驱动器)中,我看到很多磁盘出现读取错误,但不知何故没有以 SMART 数据结束,即使 Windows 在事件日志中记录了这些错误。(SMART 仅在从 Windows 执行完整的 chkdsk 后才记录它们。)
这让我相信,在许多消费者驱动器中,SMART 阈值非常低。这可能是(大 IF)有意在这个残酷的业务中保持较低的 RMA 数字。
许多消费者无论如何都不会注意到偶尔出现的坏块,直到为时已晚。(有多少消费者知道在哪里可以找到事件日志?这是您可以在 Windows 中看到磁盘错误的唯一地方。)
根据我的经验,如果消费者磁盘有问题(SMART 或其他),请复制它的数据并立即更换。当它给出这些错误时,它已经死了。
归档时间: |
|
查看次数: |
13397 次 |
最近记录: |