当配备 ECC 内存的 Linux 机器识别出内存故障时,我如何得到通知?我对可纠正和不可纠正的错误都感兴趣。
感兴趣的系统有 Supermicro 板 (X9SCM-F),关于 HP N54L 微服务器我只是好奇,但不要太在意。所有系统都运行 Debian 或 Ubuntu Linux。
是否建议在工作站中使用 ECC RAM,还是仅在服务器中使用?如果非 ECC RAM 可以在 PC 上运行,我们为什么还需要 ECC RAM?
DRAM 芯片非常紧凑。研究表明,相邻位可以随机翻转。
参考:
这是一个提议的关于服务器内存的规范问题。
我必须购买戴尔 R420 服务器,并且有各种组合(1600 和 1333 MHz RDIMMS 和 UDIMMS)以及性能优化与高级 ECC 的对比,无论是否有备用。我注意到只有 4gb 的 DIMM 带有 UDIMM,所以我最终只能使用 16GB 的 RDIMM。
这些选项是什么,我需要了解哪些信息?
自从更换处理器后,我更新了这篇文章,但我的问题的核心(不幸的是结果也是如此)是相同的。
我构建了我的第一个 FreeNAS 盒子,并想使用 ECC RAM,因为我想存储关键数据。因为我的预算有限,所以我想寻找仍然支持 ECC RAM 的最实惠的解决方案。
经过一番研究,我发现我需要一个支持 ECC 的主板、内存和 CPU。我选择的主板是“Gigabyte X150M-Pro ECC”,它有 C232 芯片组、DDR4 和 LGA1151 插槽。
我还购买了由金士顿制造的两个 DIMM 套件,型号为“KVR21E15S8K2/8”(规格表)。技嘉发布了一份经过测试的内存模块列表,我的模块似乎支持工作 ECC(支持模块列表)。
由于我的预算有限,我需要一个支持 ECC 的经济实惠的 Skylake CPU。根据英特尔的说法,赛扬 G3900 确实支持 ECC,所以我选择了那个。
构建计算机后,我想验证我的系统是否确实使用 ECC 内存运行并进入了主板的 BIOS。从各种互联网站点,我发现有些主板有一个特殊部分,可以告诉 ECC 是否正常工作,但我的主板似乎没有。我检查了所有菜单,但找不到类似的部分。
在做了更多的研究之后,在 Unix&Linux stackexchange 上找到了一篇没有解决我的问题的帖子。我尝试了最新的memtest86+,据我所知,它甚至没有显示值“ECC”。我尝试了Puget 系统使用的较旧的 4.20 版本,该版本显示“ECC:关闭”。然而,在阅读了前面提到的帖子后,我怀疑它说的是实话(也许这就是该功能被删除的原因?)。两个版本也没有读出 DIMM 的正确速度和延迟,这增加了我对memtest86+.
另一种确定 ECC 是否正常工作的流行方法是发出dmidecode -t memory命令并读出Total Width和Data Width。我的结果分别是 …
我有一台带有双 Intel Xeon E5503 CPU 的 Dell PowerEdge R710。它有 96GB(12x8GB) 的 ECC DIMM。在其 BIOS 中,内存配置为“高级 ECC”。
我的问题是,如果我的 DIMM 已经是 ECC,在 BIOS 中启用这种“高级 ECC”模式是否有意义,或者我应该切换到“优化”吗?
戴尔将这些模式描述为:
高级 ECC 模式 此模式使用两个 MCH 并将它们“连接”在一起以模拟 128 位数据总线 DIMM。这主要用于为基于 x8 DRAM 技术的 DIMM 实现单设备数据校正 (SDDC)。每种内存模式下的基于 x4 的 DIMM 都支持 SDDC。一个 MCH 完全未使用,安装在该通道中的任何内存都会在 POST 期间生成警告消息。
内存优化模式在这种模式下,MCH 彼此独立运行;例如,一个可以空闲,一个可以执行写操作,另一个可以准备读操作。内存可以安装在一个、两个或三个通道中。为了完全实现内存优化模式的性能优势,每个 CPU 的三个通道都应该被填充。这意味着某些“非典型”内存配置(例如 3GB、6GB 或 12GB)将产生最佳性能。这是推荐的模式,除非需要特定的 RAS 功能。
ECC 内存模块在非关键服务器上是否重要?
我正在考虑给自己一个玩具专用服务器,用于许多随机的、非关键的东西。零星的重启没什么大不了的。我正在寻找一家供应商,但价格非常便宜。他们的硬件对于任何严肃的服务器盒来说都是一个笑话:台式机处理器、非 ECC RAM、杂牌机箱、没有热插拔 SATA 硬盘等(嗯,我猜价格是合理的)。
我认为 ECC 内存在任何“严肃的”服务器上都是理所当然的,所以我想知道这对于“玩具”设备来说是否重要。
我正在寻找一种方法来强制 DRAM DIMM 中的 ECC 错误来测试一些与从这些错误中恢复相关的代码。我相信英特尔制造了一个几千美元的测试夹具,但我正在寻找更便宜的东西。
我试过购买连接到 DIMM 的 Beta 发射器(锶 90,0.01uCi)以强制硬件中的“位翻转”。运行两周后,我没有收到任何 ECC 错误报告。
我的下一步是要么购买更强的发射器……要么看看其他人是否以其他方式解决了这个问题。
问题:有没有人找到一种方法来强制 DIMM 中的 ECC 失败以进行测试(除了找到一个失败的 DIMM 并使用它......这是我们的旧技术,直到 DIMM 完全放弃了幽灵)