Jef*_*ood 30
优秀的现实世界研究:
DRAM 错误:大规模实地研究(pdf)
该论文提供了该领域首次对 DRAM 内存错误的大规模研究。它基于在两年多的时间里从 Google 的服务器机群中收集的数据,这些数据构成了数百万个 DIMM 天。我们研究中的 DRAM 涵盖多个供应商、DRAM 密度和技术(DDR1、DDR2 和 FBDIMM)。
该论文解决了以下问题: 内存错误在实践中有多常见?它们的统计特性是什么?它们如何受到温度和系统利用率等外部因素的影响?它们如何随着芯片密度、内存技术和 DIMM 年龄等特定于芯片的因素而变化?
我们发现,在许多方面,现场 DRAM 错误的表现与通常假设的非常不同。例如,我们观察到 DRAM 错误率比之前报告的高几个数量级,FIT 率(每十亿设备小时的时间故障)为每 Mbit 25,000 到 70,000 次,每年有超过 8% 的 DIMM 受到影响。我们提供了强有力的证据,表明内存错误主要是硬错误,而不是软错误,这是以前大多数工作所关注的。我们发现,在影响 DIMM 现场错误行为的所有因素中,温度的影响非常小。最后,与通常担心的不同,我们没有观察到任何迹象表明每个 DIMM 的错误率随着新一代 DIMM 的增加而增加。
有趣的是,大多数内存错误都是硬的——硬内存错误是不可恢复的,这意味着内存必须在发生故障时物理更换,而软内存错误可以通过用正确的值覆盖内存来修复。这对我来说表明 ECC 的价值相当有限。
内存系统中通常会发生两种错误。第一个称为可重复或硬错误。在这种情况下,一个硬件坏了,会一直返回错误的结果。一个位可能会被卡住,例如,无论写入什么,它总是返回“0”。硬错误通常表示内存模块松动、芯片烧毁、主板缺陷或其他物理问题。它们相对容易诊断和纠正,因为它们是一致且可重复的。
听起来研究中的所有服务器都使用 ECC,所以我们无法知道 ECC 与非 ECC 错误率。
本文研究了大量商用服务器中 DRAM 错误的发生率和特征。我们的研究基于 2 年多收集的数据,涵盖多个供应商、代、技术和容量的 DIMM。所有 DIMM 都配备了纠错逻辑 (ECC) 以纠正至少一位错误。
Wal*_*ldo 28
通过利用奇偶校验位,ECC RAM 可以从位中的小错误中恢复。由于服务器是一种共享资源,正常运行时间和可靠性很重要,因此通常使用 ECC RAM,价格差异不大。ECC RAM 也用于 CAD/CAM 工作站,因为小的位错误可能导致计算错误,当设计进入制造阶段时,这些错误会成为更严重的问题。
与奇偶校验相比,ECC 有几个优点。一方面,它可以检测和修复单位错误,而无需停止整个系统。多位错误仍会返回奇偶校验错误,但在 PC 的整个生命周期内,这种情况发生的几率是天文数字,除非内存本身有缺陷。ECC 就像汽车保险:它为大多数可能出错的事情提供保障,但它无法防止多辆车相撞。
更多详细信息:ECC 内存:服务器的必需品,而不是台式机
归档时间: |
|
查看次数: |
27838 次 |
最近记录: |