fre*_*ick 2 linux redhat mdadm software-raid raid1
长版:我正在运行带有软件 raid1 (mdadm) 的 Red Hat Enterprise Linux 5 (REHL5) 机器。
前几天去备份一些MySQL数据,突然无法登录机器了。我输入了一个用户名来登录,然后它就会坐在那里。如果按下控制序列,它们会出现在屏幕上,但它永远不会登录。它也不会响应 ctrl+alt+delete。所以我做了一个硬断电。
我将其重新启动并通过以下方式监视了 raid1 阵列:
mdadm --detail /dev/md1
Run Code Online (Sandbox Code Playgroud)
该数组包含根挂载点。
它开始重新同步阵列。我不确定这是因为崩溃还是因为我硬断电了。无论哪种方式,我都让它完成:
[f@mysqldatanode ~]# mdadm --detail /dev/md1
/dev/md1:
Version : 00.90.03
Creation Time : Thu Apr 19 15:28:52 2007
Raid Level : raid1
Array Size : 479893568 (457.66 GiB 491.41 GB)
Device Size : 479893568 (457.66 GiB 491.41 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 1
Persistence : Superblock is persistent
Update Time : Fri Dec 25 10:03:50 2009
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
UUID : ab4849de:1f4f41c4:defd01e8:a4979ca6
Events : 0.78
Number Major Minor RaidDevice State
0 8 2 0 active sync /dev/sda2
1 8 18 1 active sync /dev/sdb2
Run Code Online (Sandbox Code Playgroud)
我查看了一些日志 (/var/log/messages*) 并发现了几条类似于以下指示硬盘故障的消息:
Dec 21 11:39:47 localhost kernel: sd 0:0:1:0: SCSI error: return code = 0x08000002
Dec 21 11:39:47 localhost kernel: sdb: Current: sense key: Medium Error
Dec 21 11:39:47 localhost kernel: Additional sense: Unrecovered read error
Dec 21 11:39:47 localhost kernel: Info fld=0x3348912
Dec 21 11:39:47 localhost kernel: end_request: I/O error, dev sdb, sector 53774610
Dec 21 11:39:47 localhost kernel: raid1:md1: read error corrected (8 sectors at 53565760 on sdb2)
Dec 21 11:39:48 localhost kernel: raid1: sdb2: redirecting sector 53565648 to another mirror
Run Code Online (Sandbox Code Playgroud)
然后我尝试寻找坏块,它以同样的方式再次锁定。
[f@mysqldatanode ~]# badblocks -s /dev/md1
Checking for bad blocks (read-only test): 0/ 479893568
Run Code Online (Sandbox Code Playgroud)
那么我应该如何评估两个驱动器的健康状况呢?由于有问题的阵列包含根挂载点,我是否需要将它们移动到另一台机器来分析它们?
Run*_*sen 11
您可以通过 mdadm 使 /dev/sdb 设备失败(最好确保您使整个设备失败,即运行它的所有 mds)然后检查它是否有错误,但根据您的描述,您很可能最好更换设备.
我的 ide 设备经常出现故障,我不断重新添加被拒绝的设备,直到最后计算机开始像您描述的那样挂起。更换故障设备解决了问题。
无论哪种情况,您都应该尽快进行备份。
归档时间: |
|
查看次数: |
4393 次 |
最近记录: |