我有一堆 Sun X2200-M2 服务器。这些服务器具有 ECC 内存。
在其中一些服务器中,我在 eLOM 中收到有关“检测到可纠正的 ECC 错误”的警告,例如:
# ssh regress11 ipmitool sel elist
1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
Run Code Online (Sandbox Code Playgroud)
...有些比其他更频繁。
这个特定系统上的内核也抛出 EDAC 错误,尽管频率远高于 eLOM 记录 ECC 事件的频率:
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset …Run Code Online (Sandbox Code Playgroud) 对于非 ECC 内存,我对失败的情况有一个很好的了解;某些随机的事情开始出错(例如 PNG 校验和验证失败一次,然后不是下一次),诸如此类。但我对 ECC RAM 比较陌生。当 ECC RAM 出现故障时,我会期待什么?我知道是否有一位翻转,它应该会自动更正,但我怎么知道是否有更严重的问题或是否需要更换模块?
我发现一份报告表明系统可能会自发关闭或无法开机,但我不清楚为什么会这样。
我们经常让服务器中的 DIMM 变坏,系统日志中出现以下错误:
5 月 7 日 09:15:31 nolcgi303 内核:EDAC k8 MC0:一般总线错误:参与处理器(本地节点响应)、超时(无超时)内存事务类型(通用读取)、内存或 I/O(内存访问) , 缓存级别(通用) 5 月 7 日 09:15:31 nolcgi303 内核:MC0:CE 页 0xa0,偏移量 0x40,grain 8,综合症 0xb50d,第 2 行,通道 0,标签“”:k8_edac 5 月 7 日 09:15:31 nolcgi303 内核:MC0:CE - 无可用信息:k8_edac 错误溢出集 5 月 7 日 09:15:31 nolcgi303 内核:EDAC k8 MC0:扩展错误代码:ECC chipkill x4 错误
我们可以使用 HP SmartStart CD 来确定哪个 DIMM 有错误,但这需要使服务器停止生产。是否有一种巧妙的方法可以在服务器启动时确定哪个 DIMM 失效?我们所有的服务器都是运行 RHEL 5 的 HP 硬件。
我们正在评估是购买基于 RSA 的证书还是基于 ECC 的证书。
RSA 较旧,所有浏览器都支持。
ECC 较新,他们表示由于需要较小的密钥才能获得类似的安全性等,因此速度更快。
不幸的是,我找不到支持 ECC 证书的浏览器和操作系统。您能指导我访问适用于主要浏览器和操作系统(包括移动浏览器)的正确站点或规范站点吗?
我有一个 AMD 四核、8 GB RAM、1 个 SSD EXT2(2 个月大)、2 个 HDD EXT4,大约 1 岁。我使用的是 Ubuntu 10.04 x86-64,当我计算大文件 (9 GB) 的 md5sum 时,有时我得到的值与存储在参考文件中的值不同。
重新启动并关闭电脑后,无论我重复多少次,我都会得到预期的结果。但这是随机的。
我打开了 ECC(最快的设置),这个问题似乎更罕见,但我已经运行 memtest86+ 6 个多小时没有出现故障(并且关闭 ECC!)。
任何的想法?我应该更新我的主板的 BIOS(华硕 EVO -东西......现在不记得了)?除了这个,我已经尝试了所有其他的,但真的不知道该怎么办了......
任何建议表示赞赏!
在 linux 服务器(8x 四核 AMD 8378)上,我收到以下错误:
[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged
Run Code Online (Sandbox Code Playgroud)
这在上个月发生了 3 次,但从未发生过(服务器运行了 3 年)。
从快速的谷歌搜索来看,这似乎是一个严重的问题。
但是,供应商支持技术人员说:
我已经多次看到这些错误,除非您对 CPU 进行超频 - 或者出现风扇故障或类似故障 - 否则不太可能是处理器问题。内核误报错误的可能性更大。
那么 - 这是一个严重错误,我应该订购新部件(更换 CPU?)还是忽略它?
非常感谢。
我有一个带有 CentOS 的 32GB 非 ECC RAM 专用服务器。
一天一次,它在 /var/log/kern.log、/var/log/messages、mysql、apache 中随机崩溃而没有任何错误。
CPU/RAM/IO 不是特别高也不是特别低。
CentOS 是否在某处记录了任何此类错误,可以最终揭示“现在是支付 ECC 费用的时候了”?
我运行的服务器刚刚遇到了我以前从未遇到过的错误。它发出几声哔哔声,重新启动,并卡在启动屏幕(BIOS 显示其徽标并开始列出信息的部分)并出现错误:
节点 0:DRAM 不可纠正的 ECC 错误
节点 1:HT 链接同步错误
硬重置后,系统启动正常,但尚未在 edac-util 上报告任何内容。
我的研究告诉我,即使 ECC 内存和系统处于理想状态,仍然可能出现无法纠正的错误,并且可能会在系统的生命周期中的某个时刻发生;一些报告建议至少一年或更早一次。
该服务器运行带有多个 ECC 模块的 CentOS 6.5。我已经在尝试诊断哪个模块引发了错误,以评估这是错误还是不可避免的结果,例如宇宙射线。
我的研究还表明,当系统像这样停止时,日志无处可写,唯一可靠的方法是将系统连接到另一个系统,并通过串行端口写出日志。
除了通常的 edac-util、memtest、压力测试和预防性更换之外,在解决这个错误时还有什么我应该考虑的吗?
我无法在我搜索的任何 CentOS 日志中找到此崩溃的任何记录,这与我的信念一致,即无法将此错误记录到本地磁盘。该错误仅在自动重启后由 bios 报告给我。是否建议始终将系统日志写入串行以记录这些类型的错误?
使用单个系统可以避免这种故障,还是只能使用昂贵的企业解决方案才能避免?
在这些故障情况下,我可以做些什么来为单个生产服务器提供回退措施;例如,生产服务器本身不会跨越多台机器,但可以存在后备服务器。
我有一台带有 Perc H710P RAID 控制器和 4 个连接的 3TB 驱动器的戴尔 T7600。在过去的几个月里,RAID 控制器在启动时间歇性地报告错误:“找不到启动设备”、“baseport 上的适配器没有响应”,磁盘经常报告为丢失或失败。
从那以后,我更换了 RAID 控制器、4 个硬盘驱动器,最后更换了系统的主板。
更换主板并重新启动几次后,出现错误
Single bit ECC errors were detected on the RAID controller.
Please contact technical support to resolve this issue.
Run Code Online (Sandbox Code Playgroud)
重新启动大约 20 次后,我还没有看到 ECC 错误。系统在其他方面似乎还可以,除了当系统完全空闲时磁盘风扇有时会开始全速吹气并且直到我重新启动才停止。
RAID 控制器的内存中是否存在 ECC 错误?或者,RAID控制器是否在系统内存中映射,而ECC错误真的在系统内存中?或者,驻留在 RAID 控制器中的 1GB 缓存中是否存在 ECC 错误?
我正在为 SUPERMICRO MBD-X8DAH+-FO Dual LGA 1366 ( http://www.supermicro.com/products/motherboard/qpi/5500/x8dah_-f.cfm )寻找内存。基本上,我正在寻找 ECC 和非 ECC 内存之间的区别。我用谷歌搜索了一下,似乎获得非 ECC 内存更好,因为:
获得 ECC 内存的原因是什么?
ecc ×10
hardware ×3
linux ×3
memory ×3
centos ×1
certificate ×1
corruption ×1
dell-perc ×1
md5 ×1
raid ×1
redundancy ×1
ssl ×1