mar*_*ton 8 hardware linux memory ecc
我们经常让服务器中的 DIMM 变坏,系统日志中出现以下错误:
5 月 7 日 09:15:31 nolcgi303 内核:EDAC k8 MC0:一般总线错误:参与处理器(本地节点响应)、超时(无超时)内存事务类型(通用读取)、内存或 I/O(内存访问) , 缓存级别(通用) 5 月 7 日 09:15:31 nolcgi303 内核:MC0:CE 页 0xa0,偏移量 0x40,grain 8,综合症 0xb50d,第 2 行,通道 0,标签“”:k8_edac 5 月 7 日 09:15:31 nolcgi303 内核:MC0:CE - 无可用信息:k8_edac 错误溢出集 5 月 7 日 09:15:31 nolcgi303 内核:EDAC k8 MC0:扩展错误代码:ECC chipkill x4 错误
我们可以使用 HP SmartStart CD 来确定哪个 DIMM 有错误,但这需要使服务器停止生产。是否有一种巧妙的方法可以在服务器启动时确定哪个 DIMM 失效?我们所有的服务器都是运行 RHEL 5 的 HP 硬件。
Phi*_*bin 17
MC0、第 2 行和通道 0 很重要。尝试更换 CPU0 上的 DIMMA1。
举例来说,我必须在具有 16 个完全填充的 DIMM 插槽和两个 CPU 的 Linux 服务器中识别坏的 DIMM。这些是我在控制台上看到的错误:
EDAC k8 MC1: general bus error: participating processor(local node origin), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
EDAC MC1: CE page 0x103ca78, offset 0xf88, grain 8, syndrome 0x9f65, row 1, channel 0, label "": k8_edac
EDAC MC1: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC1: extended error code: ECC chipkill x4 error
Run Code Online (Sandbox Code Playgroud)
我服务器中的坏 DIMM 是 CPU1 上的 DIMMA0。
EDAC 代表错误检测和纠正,记录在http://www.kernel.org/doc/Documentation/edac.txt和 /usr/share/doc/kernel-doc-2.6*/Documentation/drivers/edac/edac .txt 在我的系统 (RHEL5) 上。CE 代表“可纠正错误”,如文档所示,“CE 提供 DIMM 开始出现故障的早期迹象。”
回到上面我在服务器控制台上看到的 EDAC 错误,MC1(内存控制器 1)表示 CPU1,第 1 行在 Linux EDAC 文档中被称为 csrow1(芯片选择第 1 行),而通道 0 表示内存通道 0 . 我查看了http://www.kernel.org/doc/Documentation/edac.txt上的图表,看到 csrow1 和 Channel 0 对应于 DIMM_A0(我系统上的 DIMMA0):
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
Run Code Online (Sandbox Code Playgroud)
(再举一个例子,如果我在 MC0、csrow4 和 Channel 1 上看到错误,我会替换 CPU0 上的 DIMMB2。)
当然,我的服务器上实际上有两个称为 DIMMA0 的 DIMM 插槽(每个 CPU 一个),但是 MC1 错误再次对应于 CPU1,它列在 dmidecode 输出中的“Bank Locator”下:
[root@rce-8 ~]# dmidecode -t memory | grep DIMMA0 -B9 -A8
Handle 0x002E, DMI type 17, 27 bytes.
Memory Device
Array Handle: 0x002B
Error Information Handle: Not Provided
Total Width: 72 bits
Data Width: 64 bits
Size: 4096 MB
Form Factor: DIMM
Set: None
Locator: DIMMA0
Bank Locator: CPU0
Type: DDR2
Type Detail: Synchronous
Speed: 533 MHz (1.9 ns)
Manufacturer:
Serial Number:
Asset Tag:
Part Number:
--
Handle 0x003E, DMI type 17, 27 bytes.
Memory Device
Array Handle: 0x002B
Error Information Handle: Not Provided
Total Width: 72 bits
Data Width: 64 bits
Size: 4096 MB
Form Factor: DIMM
Set: None
Locator: DIMMA0
Bank Locator: CPU1
Type: DDR2
Type Detail: Synchronous
Speed: 533 MHz (1.9 ns)
Manufacturer:
Serial Number:
Asset Tag:
Part Number:
Run Code Online (Sandbox Code Playgroud)
(在我的工作站上,dmidecode 实际上显示了我的 DIMM 的部件号和序列号,这非常有用。)
除了查看控制台和日志中的错误外,您还可以通过检查 /sys/devices/system/edac 来查看每个 MC/CPU、行/csrow 和通道的错误。就我而言,错误仅发生在 MC1、csrow1、通道 0 上:
[root@rce-8 ~]# grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow1/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow3/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow3/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow4/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow4/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow5/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow5/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow6/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow6/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow7/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow7/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:6941652
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow3/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow3/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow4/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow4/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow5/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow5/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow6/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow6/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow7/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow7/ch1_ce_count:0
Run Code Online (Sandbox Code Playgroud)
我希望这个例子对任何试图根据 EDAC 错误识别坏 DIMM 的人有所帮助。有关更多信息,我强烈建议您阅读http://www.kernel.org/doc/Documentation/edac.txt 上的所有 Linux EDAC 文档
小智 4
除了使用 EDAC 代码之外,您还可以使用仅限 CLI 的 HP 实用程序在计算机在线时确定这一点。cli 版本比基于 Web 的版本轻量得多,并且不需要您打开端口或持续运行守护进程。
hpasmcli 将为您提供故障模块的盒式磁带和模块编号。比分析 EDAC 快一点。
例子:
hpasmcli -s "show dimm"
DIMM Configuration
------------------
Cartridge #: 0
Module #: 1
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok
Cartridge #: 0
Module #: 2
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok
Cartridge #: 0
Module #: 3
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok
Cartridge #: 0
Module #: 4
Present: Yes
Form Factor: 9h
Memory Type: 13h
Size: 1024 MB
Speed: 667 MHz
Status: Ok
Run Code Online (Sandbox Code Playgroud)
失败模块的状态将发生变化。