数据中心如何应对持续的磁盘故障？

Question

数据中心如何应对持续的磁盘故障？

ola*_*laf 0 hard-drive datacenter

根据2022年磁盘可靠性报告

https://www.techspot.com/news/97909-ssd-reliability-only-slightly-better-than-hdd-backblaze.html

SSD硬盘的年故障率为0.98%，HDD为1.6%。

这意味着如果您有一个包含 600 个磁盘的数据中心：

有一个(1-0.01)^600 = 0.2% that no disk will fail for the year. 如果磁盘故障分布均匀，是否意味着每天有 1 个磁盘故障？

如果数据中心有1000块磁盘：

(1- 0.016 )^1000 = 0.0000000009，这意味着每两秒就会出现一次磁盘故障。

我一定是计算错了。

如果数学正确，那么 gcp、AWS 如何每隔几秒处理一次磁盘更换？
如果数学错误，我错过了什么？

Answer 1

Rob*_*nie 6

你的数学是错误的

(1-0.016)^1000是您全年没有出现任何一个驱动器故障的概率（有 1000 个磁盘的池），但您不能简单地将 1 年乘以该数字来获得磁盘故障所需的时间。失败，那没有意义。

如果 AFR 为 1.6%，则意味着 1000 个磁盘中的 16 个将在一年内或大约每 22 天发生故障（不考虑更换驱动器也发生故障的可能性）

这是另一种解决方法，驱动器在 1 年内出现故障的可能性为 1.6%，平均而言，1/0.016 = 62.5单个特定驱动器需要数年时间才会出现故障，因此，在累积驱动器年数中，每 62.5 年就会出现一次故障。分布超过 1000 个驱动器，您将经历 62.5 个驱动器年（按62.5/1000 = 0.0625实时计算），即 22.8 天。

归档时间：	2 年前
查看次数：	232 次
最近记录：	1 年，12 月前