我有一个硬盘驱动器,它是 Linux 软件 raid5 阵列的一部分。SMART 报告说它的 multi_zone_error_rate 是 0,然后是 1,然后是 3。所以我想我最好开始更频繁地备份并准备更换驱动器。现在,今天,同一个驱动器的 multi_zone_error_rate 又回到了 1。在我不看的时候,似乎有 2 个错误没有发生。
我还通过检查服务器上的系统日志看到了类似的行为。
Jun 7 21:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 7 21:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 7 21:01:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 8 02:31:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun 8 03:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun 8 03:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Run Code Online (Sandbox Code Playgroud)
这些是原始值,而不是产生的对人类有用的值smartctl -a
,但行为是相似的:错误率发生变化,然后撤消更改。这些都不是具有 multi_zone 怪异性的驱动器。我没有看到 RAID 有任何问题;它最近的磨砂膏(< 24 小时前)完全干净了。这些是唯一表现奇怪的 SMART 值。
我唯一能想到的是驱动器上的 SMART 报告电路不能一直正常工作。电缆在驱动器和板上很紧。这里发生了什么?
由于该度量被称为速率,因此如果没有进一步的错误发生,它可能会随着时间的推移而下降。您需要检查驱动器的文档以确保。
如果度量是“随时间发生的次数”,而不是自特定时间以来的绝对计数,那么如果错误不再发生,它将下降。可能之前的增加是由于环境条件的局部变化,例如温度突然升高(异常天气、空调故障)或振动增加(在同一时间段内在同一机架上完成的任何工作都可能导致物体受到撞击) ,或者可能是轻微的地震,如果您在受它们影响的区域,或者可能有人生气并对服务器大喊大叫),并且此后情况的临时变化已经恢复并且没有恢复。
SMART 读取名称中的“错误”并不总是意味着永久性和/或不可恢复的错误。寻道错误可能是由于驱动器磁头由于振动而丢失了它们的标记 - 在这种情况下,驱动器的电子设备将重新调整位置(或让它稳定下来)并等待磁盘旋转回来以便目标扇区再次可用。现代基于旋转磁盘的驱动器可以满足非常严格的时间和精确的定位要求,并且少量此类错误不是问题。