数据中心如何应对持续的磁盘故障?

ola*_*laf 0 hard-drive datacenter

根据2022年磁盘可靠性报告

https://www.techspot.com/news/97909-ssd-reliability-only-slightly-better-than-hdd-backblaze.html

2023 年第 3 季度旋转驱动器故障

SSD硬盘的年故障率为0.98%,HDD为1.6%。

这意味着如果您有一个包含 600 个磁盘的数据中心:

有一个(1-0.01)^600 = 0.2% that no disk will fail for the year. 如果磁盘故障分布均匀,是否意味着每天有 1 个磁盘故障?

如果数据中心有1000块磁盘:

(1- 0.016 )^1000 = 0.0000000009,这意味着每两秒就会出现一次磁盘故障。

我一定是计算错了。

  1. 如果数学正确,那么 gcp、AWS 如何每隔几秒处理一次磁盘更换?

  2. 如果数学错误,我错过了什么?

Rob*_*nie 6

你的数学是错误的

(1-0.016)^1000是您全年没有出现任何一个驱动器故障的概率(有 1000 个磁盘的池),但您不能简单地将 1 年乘以该数字来获得磁盘故障所需的时间。失败,那没有意义。

如果 AFR 为 1.6%,则意味着 1000 个磁盘中的 16 个将在一年内或大约每 22 天发生故障(不考虑更换驱动器也发生故障的可能性)

这是另一种解决方法,驱动器在 1 年内出现故障的可能性为 1.6%,平均而言,1/0.016 = 62.5单个特定驱动器需要数年时间才会出现故障,因此,在累积驱动器年数中,每 62.5 年就会出现一次故障。分布超过 1000 个驱动器,您将经历 62.5 个驱动器年(按62.5/1000 = 0.0625实时计算),即 22.8 天。