5 linux raid mdadm corruption kvm-virtualization
我遇到了一个问题,在服务器启动一段时间(~一周/几天)后,服务器将开始读取损坏的数据。例如,当我在全新启动后运行文件的 sha1sum 时,它保持不变。然而,一段时间后,我将开始出现段错误,从那时起,每当我阅读此文件时,我都会得到一个不同的 sha1sum。
我已经通过长时间的测试检查了 SMART,并且我已经运行了一个扩展的 memtest86+(12 次通过)
我的 lspci 如下:
00:00.0 主机桥:Advanced Micro Devices [AMD] RS780 主机桥 00:01.0 PCI 桥:Advanced Micro Devices [AMD] RS780 PCI 到 PCI 桥(int gfx) 00:06.0 PCI 桥:Advanced Micro Devices [AMD] RS780 PCI 到 PCI 桥(PCIE 端口 2) 00:07.0 PCI 桥:Advanced Micro Devices [AMD] RS780 PCI 到 PCI 桥(PCIE 端口 3) 00:11.0 SATA 控制器:ATI Technologies Inc SB700/SB800 SATA 控制器 [AHCI 模式] 00:12.0 USB 控制器:ATI Technologies Inc SB700/SB800 USB OHCI0 控制器 00:12.1 USB 控制器:ATI Technologies Inc SB700 USB OHCI1 控制器 00:12.2 USB 控制器:ATI Technologies Inc SB700/SB800 USB EHCI 控制器 00:13.0 USB 控制器:ATI Technologies Inc SB700/SB800 USB OHCI0 控制器 00:13.1 USB 控制器:ATI Technologies Inc SB700 USB OHCI1 控制器 00:13.2 USB 控制器:ATI Technologies Inc SB700/SB800 USB EHCI 控制器 00:14.0 SMBus:ATI Technologies Inc SBx00 SMBus 控制器(修订版 3c) 00:14.1 IDE 接口:ATI Technologies Inc SB700/SB800 IDE 控制器 00:14.3 ISA 桥接器:ATI Technologies Inc SB700/SB800 LPC 主机控制器 00:14.4 PCI 桥:ATI Technologies Inc SBx00 PCI 到 PCI 桥 00:14.5 USB 控制器:ATI Technologies Inc SB700/SB800 USB OHCI2 控制器 00:18.0 主机桥:Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] HyperTransport 配置 00:18.1 主机桥:Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] 地址映射 00:18.2 主机桥:Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] DRAM 控制器 00:18.3 主机桥:Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] 杂项控制 00:18.4 主机桥:Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] 链路控制 01:05.0 VGA 兼容控制器:ATI Technologies Inc Radeon HD 3300 Graphics 01:05.1 音频设备:ATI Technologies Inc RS780 Azalia 控制器 02:00.0 以太网控制器:Atheros Communications Atheros AR8121/AR8113/AR8114 PCI-E 以太网控制器 (rev b0) 03:00.0 FireWire (IEEE 1394):VIA Technologies, Inc. 设备 3403
我真的可以在这方面使用一些帮助,您知道是什么原因造成的吗?这真的让我很沮丧,因为它似乎完全是随机触发的,并且在我重新启动之前不会消失。我还在这台服务器上使用 KVM 进行虚拟化以及使用 MD 进行软件 RAID,处理器是 Phenom II X4 965。我不相信这是软件 RAID,但是因为这会影响也托管在非 Raid 分区上的文件,所以我不知道。
Update 21 Jun 10 Ok, just had the motherboard replaced. Still have the same error. No CPU errors I can find; disks all report fine with smart test. Does anyone have any idea whatsoever what this could be ? I am pulling my hair out over here.
Update 22 Jun 10 So I've checked the logs and tried another filesyste, still the same thing. This is all on the host VM too btw.
我的直觉告诉我这是一个硬件问题,可能与热有关(因为它在一段运行时间后出现)。很可能您的南桥或相关硬件有问题。
考虑在南桥上运行一些广泛的事务测试,或者干脆更换主板。
您的操作系统保持稳定,但出现随机 IO 错误通常会排除 CPU/内存的问题,因为这些错误往往会导致操作系统与其他软件一起崩溃和烧毁。但内核的大部分内容是在启动时从磁盘读取的,并且从未被交换出,因此即使 Linux 系统无法从磁盘正确读取,它也可以非常稳定。