监控 Linux 上的物理 RAM 错误

use*_*157 3 linux monitoring memory

我想监控两个 linux 系统(Ubuntu 和 Red Hat)的内存。我意识到我可以从启动运行 memtest86 来诊断坏内存。但是是否有任何解决方案可以在系统仍在运行时监控 ram。我在想一个守护进程,它可以从随机未使用的内存中写入和读取。以前有人见过这样的吗?

vor*_*aq7 5

大多数质量合理的现代服务器都有一个 IPMI 模块,它会报告错误的 RAM(通常通过来自 ECC RAM 的 SBE(单比特错误)消息——您在服务器使用 ECC RAM,对吗?)。IPMI 模块还监视和报告一堆其他有用的东西。

您可以使用各种网络监控系统(如果您有 IPMI NIC 的管理网络)或使用ipmitool大多数 Unix 系统上可用的网络监控系统来监控 IPMI 模块。许多供应商(肯定是戴尔和 IBM)也有专门的工具来查询 IPMI 模块以进行在线诊断。有关更多详细信息,请咨询您的硬件供应商。