一两年前,我可以为我组装的 PC 购买 ECC(纠错码)RAM。ECC RAM 提供 SEC-DED,我猜是由电离辐射引起的位翻转(我不知道还有什么可能导致 RAM 或 I/O 总线中出现瞬时位错误)。
多年来我一直没有看到为 PC 提供 ECC RAM。这是为什么?
如果ECC内存二十年前是有益想必这将是更现在是有帮助的PC有幅度更大的内存的1-2个数量级运行,以更低的电压和更小的物理特征(可能)是从杂散辐射腐败更敏感。这些假设中的任何一个是错误的吗?
即,如果十年前 ECC RAM 被认为是一项有用的功能,那么它有用的原因是否不再适用于当前的个人计算机和服务器?或者现在认为 ECC RAM 从来没有真正有用过?
Gia*_*968 63
换句话说,英特尔在 15 多年前就决定消费者机器不需要它。因此,市场在服务器硬件之外不支持它。因此,最终消费者正在付出代价。
这篇 2021 年 1 月在 ExtremeTech 上发表的文章对所发生的事情进行了相当扎实的总结:“ Linus Tovalds 责备英特尔在消费系统中杀死 ECC RAM ”:
“曾几何时,您可以在主流芯片组上购买 ECC 支持,但英特尔几年前在非至强平台上逐步淘汰了该功能。975X 可能是最后一个支持它的消费级英特尔平台,该家族于 15 年前推出。Xeon 3450 芯片组与 Nehalem 系列中的某些高端 CPU 交叉兼容,但这仍然是 Xeon 芯片组——不是主流部分。”
“因此,消费产品中对 ECC 的支持——以及消费产品中 ECC RAM 的可用性——都下降了。”
由于文章引用了 Linus Torvalds,这里是他的具体抱怨:
“内存制造商声称这是因为经济和低功耗。他们是说谎的混蛋——让我再次指出这些问题如何已经存在了好几代,但这些混蛋高兴地向消费者出售损坏的硬件并声称这是一次“攻击”,而它总是'我们正在偷工减料。'”
这里的问题是 Linux 因内核错误而受到指责,但 Linus Torvalds 认为根本原因是硬件问题,可以追溯到当今机器中非 ECC RAM 的流行。
但这是一个切线......归根结底是PC制造商偷工减料。经典的制造问题。
现在 PC 硬件被认为是一次性的,这里可能有一些理由:RAM 开始变得脆弱,只需扔掉机器并购买一台新机器。事实是,市场上充斥着非技术和非 PC 制造商,所以嘿……它很臭,但就是这样。
mas*_*sgo 39
就历史而言,我同意@Giacomo1968 提供的答案。然而,目前的状态正在发生变化。AMD 最近开始在其当前用于 AM4 插槽的台式机 CPU 产品线中支持 ECC 内存:“ECC 未被禁用。它可以工作,但未针对我们的消费者客户端平台进行验证。” (来源:Reddit)
也就是说,主板也需要支持这一点。一些消费者委员会有,一些没有。
Zan*_*ynx 38
多一点解决这个问题:
微软试图让 ECC 成为 Vista 认证的必需功能,但英特尔拒绝这样做。在 Core i7 系列之前,内存控制器是主板的一部分,而 ECC 支持是主板芯片组的一项功能。
您可以获得带有 ECC 的笔记本电脑。例如,您可以通过 Xeon-W CPU 和 ECC RAM 获得 Dell Precision Workstation 系列。
您可以购买任何锐龙 CPU。好吧,任何没有集成显卡的锐龙。要使集成显卡与 ECC 配合使用,您需要一个很难找到的 Pro 版本,除非您在预建系统中购买它。
使用 Ryzen 和 ASUS PRO 系列这样的主板,无缓冲 ECC 会很好用。
对于注册的缓冲 ECC 模块,您需要一个真正的 Xeon 或 EPYC CPU,因为这些 RAM 类型的控制方式不同。
在不久的将来,DDR5 RAM 可以选择在内部使用 ECC,而无需来自 CPU 的任何通知或控制。它还可以选择向支持它的 CPU 提供信号和控制。
这是您今天可以购买的 ECC 模块的示例。我为 Ryzen 版本买了四个:
“Crucial 服务器内存 16GB DDR4 DIMM 288 针 - 2666 MHz / PC4-21300 - CL19-1.2 V - 无缓冲 - ECC CT16G4WFD8266”
我会提供一个亚马逊链接,但这可能会被视为垃圾邮件。另请注意,您现在可以获得 3,200 MHz 速度的 ECC 模块。
Pet*_*ith 38
一两年前,我可以为我组装的 PC 购买 ECC(纠错码)RAM。ECC RAM 提供 SEC-DED,我猜是由电离辐射引起的位翻转(我不知道还有什么可能导致 RAM 或 I/O 总线中出现瞬时位错误)。
位错误有 3 个一般原因,其中前两个是单事件翻转:
辐射(主要是自由中子)。这种特殊现象取决于许多因素,例如特定设备的中子截面。这似乎与直觉相反,但较新的小得多的几何结构由于中子而发生翻转的可能性较低,因为它们被设计为不太容易受到影响。请参阅Xilinx 链接(从下方)。
铅,特别是 Pb210,它是铀衰变链的一部分,存在于 BGA 器件球中的旧套件中。Xilinx将由此产生的误差称为 alpha 率,因为它们在衰减过程中会发射 alpha 粒子。显然,对于当前的大量无铅设备来说,这不是一个问题(但在航空航天领域仍然是一个相当大的问题,在那里锡铅加工仍然很普遍)。
一般误码率问题。内存接口是一个通信通道,所有的通信通道都有一个错误率。诚然,您可能永远不会在特定设备的使用寿命中看到一个位错误,因为这是一个统计量。由于电噪声和设备去耦不良引起的错误也属于这一类。
即,如果十年前 ECC RAM 被认为是一项有用的功能,那么它有用的原因是否不再适用于当前的个人计算机和服务器?或者现在认为 ECC RAM 从来没有真正有用过?
它很有用,但价值有限,尽管可以通过使用它来减轻许多旁道攻击。
您在市售电路板上找不到它的真正原因只是成本,而那些确实有它的电路板有相当大的溢价,远高于处理它的硅片成本和额外的 8 个数据位(对于一个64 位存储系统)。成本效益分析不支持其广泛的可用性。
我记得波音公司的一篇研究论文讨论了丹佛数据中心的软错误。自由中子的数量(达到一定水平)与高度成正比。你走得越高,就有越多。
如果 ECC 内存在 20 年前有用,那么现在 PC 运行的内存增加了 1-2 个数量级,电压更低,物理特征更小,(大概)更容易受到杂散辐射的破坏,这可能会更有帮助。这些假设中的任何一个是错误的吗?
我们今天的存储器接口是远远更强大的比你想象的; 对于 DDRx,数据选通是差分的(因此它们可以抑制共模噪声)并且较低的转换电压实际上更适合高速接口,正如我们多年前用ECL证明的那样。
在航空电子设备中,尤其是飞行安全关键的航空电子设备,例如飞行控制计算机,L2 及更高级别的 ECC 的使用是强制性的,L1 的奇偶校验也是如此。这就是这些卡不是来自 Intel 或 AMD 的原因之一。
[更新]。存储单元布局的细节对其对 SEU 的敏感性有相当大的影响;赛灵思采用了一种特殊方法,可以有效地堆叠存储单元,从而显着降低高能中子导致位翻转的可能性。
因为我不是IC 设计师,所以我只能这么说。Rosetta Project 中有更多信息。
| 归档时间: |
|
| 查看次数: |
8429 次 |
| 最近记录: |