什么是 ECC ram,为什么它更好?

Tob*_*len 31 memory ecc

我看过有关在服务器上使用 ECC ram 的讨论。为什么更好?

Jef*_*ood 30

优秀的现实世界研究:

DRAM 错误:大规模实地研究(pdf)

该论文提供了该领域首次对 DRAM 内存错误的大规模研究。它基于在两年多的时间里从 Google 的服务器机群中收集的数据,这些数据构成了数百万个 DIMM 天。我们研究中的 DRAM 涵盖多个供应商、DRAM 密度和技术(DDR1、DDR2 和 FBDIMM)。

该论文解决了以下问题: 内存错误在实践中有多常见?它们的统计特性是什么?它们如何受到温度和系统利用率等外部因素的影响?它们如何随着芯片密度、内存技术和 DIMM 年龄等特定于芯片的因素而变化?

我们发现,在许多方面,现场 DRAM 错误的表现与通常假设的非常不同。例如,我们观察到 DRAM 错误率比之前报告的高几个数量级,FIT 率(每十亿设备小时的时间故障)为每 Mbit 25,000 到 70,000 次,每年有超过 8% 的 DIMM 受到影响。我们提供了强有力的证据,表明内存错误主要是硬错误,而不是软错误,这是以前大多数工作所关注的。我们发现,在影响 DIMM 现场错误行为的所有因素中,温度的影响非常小。最后,与通常担心的不同,我们没有观察到任何迹象表明每个 DIMM 的错误率随着新一代 DIMM 的增加而增加。

有趣的是,大多数内存错误都是硬的——硬内存错误是不可恢复的,这意味着内存必须在发生故障时物理更换,而软内存错误可以通过用正确的值覆盖内存来修复。这对我来说表明 ECC 的价值相当有限。

内存系统中通常会发生两种错误。第一个称为可重复或硬错误。在这种情况下,一个硬件坏了,会一直返回错误的结果。一个位可能会被卡住,例如,无论写入什么,它总是返回“0”。硬错误通常表示内存模块松动、芯片烧毁、主板缺陷或其他物理问题。它们相对容易诊断和纠正,因为它们是一致且可重复的。

听起来研究中的所有服务器都使用 ECC,所以我们无法知道 ECC 与非 ECC 错误率。

本文研究了大量商用服务器中 DRAM 错误的发生率和特征。我们的研究基于 2 年多收集的数据,涵盖多个供应商、代、技术和容量的 DIMM。所有 DIMM 都配备了纠错逻辑 (ECC) 以纠正至少一位错误。

  • +1 不错的报告。虽然我*不知道*非 ECC 错误率,但我*估计*非 ECC 错误率与每 GB 的 ECC 错误率大致相同。ECC 和非 ECC DIMM 都使用相同的 RAM 芯片(ECC DIMM 仅使用 9/8 的芯片——72 个原始内存位来存储 64 位数据字,8/9 的错误率为大致相同的错误率),而且我认为 RAM 芯片放置在 ECC DIMM 上与放置在非 ECC DIMM 上时的错误率没有任何区别。 (5认同)

Wal*_*ldo 28

通过利用奇偶校验位,ECC RAM 可以从位中的小错误中恢复。由于服务器是一种共享资源,正常运行时间和可靠性很重要,因此通常使用 ECC RAM,价格差异不大。ECC RAM 也用于 CAD/CAM 工作站,因为小的位错误可能导致计算错误,当设计进入制造阶段时,这些错误会成为更严重的问题。

  • 任何地方的数字都有点错误,包括某人的小型企业融资包可能很小**或**很大。这一切都取决于什么位。 (6认同)

TSt*_*per 9

与奇偶校验相比,ECC 有几个优点。一方面,它可以检测和修复单位错误,而无需停止整个系统。多位错误仍会返回奇偶校验错误,但在 PC 的整个生命周期内,这种情况发生的几率是天文数字,除非内存本身有缺陷。ECC 就像汽车保险:它为大多数可能出错的事情提供保障,但它无法防止多辆车相撞。

更多详细信息:ECC 内存:服务器的必需品,而不是台式机

  • @zan 以及您“确定”的这些错误,它们有什么后果? (4认同)

Che*_*ion 5

为简单起见,引用维基百科

计算机系统内部的电或磁干扰会导致单个 DRAM 位自发地翻转到相反的状态。最初认为这主要是由于芯片封装材料中的污染物发出的 α 粒子,但研究 [5] 表明,DRAM 芯片中的大多数一次性(“软”)错误是由于背景辐射而发生的
...
这个问题可以通过使用包含额外内存位和利用这些位的内存控制器的 DRAM 模块来缓解。这些额外的位用于记录奇偶校验或使用纠错码