考虑到许多服务器级系统都配备了ECC RAM,在部署之前烧入内存 DIMM是否必要或有用?
我遇到过这样一种环境,其中所有服务器 RAM 都经过漫长的老化/压力测试过程。这有时会延迟系统部署并影响硬件交付时间。
服务器硬件主要是Supermicro,因此 RAM 来自各种供应商;不是直接来自制造商,如Dell Poweredge或HP ProLiant。
这是一个有用的练习吗?在我过去的经验中,我只是直接使用供应商 RAM。POST内存测试不应该捕获 DOA 内存吗?我早在 DIMM 实际发生故障之前就对 ECC 错误做出了响应,因为 ECC 阈值通常是保修安置的触发因素。
对于非 ECC 内存,我对失败的情况有一个很好的了解;某些随机的事情开始出错(例如 PNG 校验和验证失败一次,然后不是下一次),诸如此类。但我对 ECC RAM 比较陌生。当 ECC RAM 出现故障时,我会期待什么?我知道是否有一位翻转,它应该会自动更正,但我怎么知道是否有更严重的问题或是否需要更换模块?
我发现一份报告表明系统可能会自发关闭或无法开机,但我不清楚为什么会这样。