确定 SSD 驱动器健康状况的快速方法?

eww*_*ite 13 hardware storage ssd smart

我有一个标志着一个ZFS存储阵列“失败”两次,因为注意到英特尔X-25M驱动器在这里。但是,在移除驱动器后,它似乎在其他计算机(Mac、PC、USB 机箱等)上挂载、读取和写入。

是否有确定驱动器当前健康状况的好方法?我觉得之前 ZFS 解决方案的失败是错误、错误报告和硬件的收敛。不过,这个驱动器似乎有一些生命力。

Dan*_*son 12

检查任何驱动器健康状况的好方法是检查 SMART 属性,但并非绝对可靠。

以下是使用smartctl v5.41为 Intel X25-M G2 160GB 磁盘设置的 SMART 属性。(版本很重要,早期版本的 smartctl 具有不同的属性名称映射,实际上并没有正确理解该驱动器的特定表)。

# ./smartctl -data -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED     RAW_VALUE
  3 Spin_Up_Time            0x0020   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0030   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       1
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       4076
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       67
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       30
225 Host_Writes_32MiB       0x0030   200   200   000    Old_age   Offline      -       148418
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       755
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       49
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       16956537
232 Available_Reservd_Space 0x0033   099   099   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   098   098   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   099    Pre-fail  Always       -       0
Run Code Online (Sandbox Code Playgroud)

这表明驱动器有 1 个重新分配的扇区,使用了 1% 的可用保留空间(属性 232)和 2% 的计划编程/擦除周期(属性 233)。它已写入 148418 * 32MiB(属性 225)。

如果驱动器显示任何大量重新分配的扇区,则可能需要引起关注,因为这可能表示闪存芯片出现故障(与旋转磁盘上的大量重新分配扇区通常指向表面错误的方式相同) )。端到端也很糟糕 - 我有几个 X25-M G2 160GB 磁盘出现故障,并报告了大量 (>1000) 端到端错误。但是,这些磁盘实际上只有两个有用的错误条件属性,因为普通磁盘的大多数有用 SMART 属性不适用于 SSD。

然而,SMART 通常不被认为是 100% 可靠的。Google 对磁盘故障的研究发现,虽然各种 SMART 预警指标与驱动器故障之间存在良好的相关性,但它并不是预测单个驱动器故障的有用工具。出于这个原因,我通常使用 SMART 来证明驱动器是坏的(如果显示错误,它可能很快就会失败),而不是证明驱动器仍然是好的。