SSD 的剩余寿命有多可靠?

24 ssd hard-drive windows-11

几年前我的硬盘曾经出现过故障,Windows 会警告我硬盘有严重问题,并给我时间来解决它,因为否则在我重新启动后,无法保证硬盘再次工作。那就像10多年前的事了。

在过去 6 年多的时间里,我一直在不间断地使用 SSD。这是一块 256 GB 的 SSD,到目前为止我已经在上面写入了超过 170 TB 的数据。在 Windows 磁盘和驱动器设置中,我看到它的生命周期还剩 54%,这令人惊讶。

我想知道这个寿命数字到底有多可靠?我知道 Windows 设置使用 SMART 数据来估计剩余寿命,但是SSD 是否像 HDD 一样,它们会因为坏扇区或类似原因而突然失效吗?或者它们会随着时间的推移而逐渐退化?我每隔几个月检查一次剩余寿命,有时确实会减少 1%。

如何处理存储设备的严重警告

在此输入图像描述

在此输入图像描述

我的 SSD 的更多详细信息:

在此输入图像描述

我的 SSD 的 TBW 为 160 TB,但我已经写入了 170 TB,SMART 显示剩余寿命为 54%。它几乎总是在 ~50.C 温度下运行。

XPG SX8000 PCIe Gen3x4 M.2 2280 固态硬盘

Tet*_*jin 32

您永远无法知道某个特定驱动器何时会发生故障,或者它是否会缓慢地发生故障以挽救数据,或者突然发生灾难性故障。

实际上,SMART 是一组“猜测”算法。它可以作为缓慢衰退的可靠预测指标,但它永远无法预测突然的彻底失败。

您始终需要适当的备份,并且需要定期测试其是否有效。等待警告是不可靠的。如果驱动器被加密,这一点就变得更加重要,因为任何失败都可能会删除加密密钥,这意味着数据会立即完全丢失。

我最旧的 SSD 已经使用了大约 10 年了。当我查看这些数字时,它仍然显示“100% 健康”。我有两个独立的应用程序,每隔几个小时后台检查一次 SMART 数据。
到目前为止,一切都很好。
我的内部备份每小时运行一次,我的异地备份每晚运行一次。我还定期进行直接克隆。
有一天,驱动器会发生故障。那时,我将订购一辆新的,并在新驱动器到达后半小时内恢复运行,不会损失超过一个小时的工作。

由于完全巧合,我曾经遇到过两台机器上的两个启动驱动器在几个月内出现故障的情况。两种驱动器都相对较新,均来自可靠的制造商。
在这两种情况下都没有损失任何东西。

  • 它永远不是 100% 可预测的。我丢失的两个驱动器都只有一年左右。两者都是信誉良好的品牌。两人都突然彻底死亡。MTTF(平均无故障时间)也只是一个平均值。一个会在第一天死亡,另一个会持续十年或更长时间,但大多数都会在预测的时间附近,呈钟形曲线。所以,是的,54% 的驱动器很可能明天就会出现故障。 (7认同)
  • @Tetsujin *“如果你这样做,最后一个驱动器将永远存在”* --> 不。最后一个驱动器每年仍有 1% 的故障几率。由此产生的预期寿命是有限的,而不是无限的。也就是说,恒定 AFR 模型实际上仅在几年内有效,此后它往往会增加。 (3认同)
  • @Tetsujin 这不是一条钟形曲线,而是一条不断下降的曲线。这就是为什么MTTF已被大多数供应商放弃并被AFR(年故障率)取代,因为MTTF与实际故障曲线并不真正相关。 (2认同)
  • @James_pic 你是对的,至少对于 HDD 而言,这一点已被 Backblaze(运营在线备份/存储数据中心)等公司对数千个驱动器进行的广泛研究所证实。但出于某种原因,驱动器供应商根据恒定 AFR 来评估他们的驱动器。 (2认同)
  • @Tetsujin 我认为双方都存在一些误解。PierU 表示,如果按表面价值计算 AFR,就会得到指数衰减。尽管纯粹基于 AFR 的模型会预测十年前的驱动器今年出现故障的几率与全新驱动器相同,但由于有些驱动器在这十年中已经出现故障,因此多个驱动器在第一年就会出现故障(尽管这种情况非常罕见)。我认为 PierU 是在说这种指数衰减模型是制造商的标准,(1/2) (2认同)

Pie*_*erU 23

SSD磨损主要是由于写入其上的数据量累积造成的。因此,供应商使用加速测试和统计模型来量化特定模型可以承受多少写入数据,并以 TBW(TeraBytes Written)来评价该模型。SMART“剩余寿命”基于此:如果您已写入 170TB 并且剩余 54%,则您的驱动器可能给出大约 370TBW。

当驱动器达到给定的 TBW 并且剩余寿命为 0% 时会发生什么?没什么...... TBW只是一个统计值,说“TBW之后,99%的驱动器仍然正常运行”(我不知道它是99%,90%,99.9%,但这是想法,与给定的阈值):因此您的特定项完全有可能持续给定 TBW 的两倍(并且也完全有可能在 TBW 的一半后失败)。

还有其他 SMART 属性可以更好地帮助预测故障,例如读取错误率、挂起的扇区数、重新分配的扇区数……当其中之一开始增加时,您应该担心驱动器。请注意,一个坏扇区本身,甚至几个坏扇区,并不足以说明驱动器很快就会出现故障。

尽管如此,SSD 也可能在没有任何警告的情况下随时发生故障,而所有 SMART 属性都没有问题。但它与任何电子或机械产品没有什么不同。

  • TBW 涉及一种特定的故障模式:单个存储单元不再可靠地存储数据。当剩余寿命为0时,意味着制造商不再保证写入的数据可读。其他失效模式与 TBW 无关。 (4认同)

Joe*_*een 10

但是 SSD 是否像 HDD 一样,它们是否会因为坏扇区或类似原因而突然出现故障?或者它们会随着时间的推移而逐渐退化?

它们肯定会随着时间的推移而退化,这与有限数量的编程/擦除周期有关,这基本上是与剩余寿命相关的属性试图测量的内容。控制器将尝试使这种磨损在 NAND 上均匀发生。

还已知,例如,随着这些单元的 p/e 循环量的增加,单元保留“数据”的能力会降低。IOW,接近预测 EOL 的 SSD 与您购买时的 SSD 不同。因此,尽管这些细胞仍然可以被编程,但它们的状况比以前更糟糕了。

因此,SSD 需要进行更多维护,这本身就会造成磨损:这种数据保留能力的下降可以通过 SSD 定期刷新数据(巡查)来抵消,这涉及读取数据并将其写入不同的位置,因此这一过程本身也有助于提高市盈率周期。

但是,由于固件错误、固件损坏、宇宙射线、突然断电、物理创伤、SMD 组件磨损等原因,SSD 也可能而且肯定会突然出现故障。

数据恢复实验室对 SSD 的恢复率比传统 HDD 的恢复率要低得多,因此保留备份可能更为重要(无论如何,这很重要,但您明白了)。

对于这种特殊情况,SMART 工具显示的健康评分基于 05 属性:

在此输入图像描述

54% 基于单个RAW 值,属性 05“已使用百分比”,0x2E(十进制 46)- 该值随着情况恶化而增加)。预留的备用容量仍然 100% 可用 (0x64) - 该值随着情况恶化而下降。

我的 SSD 的 TBW 为 160 TB,但我已经写入了 170 TB,SMART 显示剩余寿命为 54%。

SSD 制造商更改规格和更换组件的情况并不罕见。