这个raid1软件阵列失败了吗?(妈妈)

fre*_*ick 2 linux redhat mdadm software-raid raid1

长版:我正在运行带有软件 raid1 (mdadm) 的 Red Hat Enterprise Linux 5 (REHL5) 机器。

前几天去备份一些MySQL数据,突然无法登录机器了。我输入了一个用户名来登录,然后它就会坐在那里。如果按下控制序列,它们会出现在屏幕上,但它永远不会登录。它也不会响应 ctrl+alt+delete。所以我做了一个硬断电。

我将其重新启动并通过以下方式监视了 raid1 阵列:

mdadm --detail /dev/md1
Run Code Online (Sandbox Code Playgroud)

该数组包含根挂载点。

它开始重新同步阵列。我不确定这是因为崩溃还是因为我硬断电了。无论哪种方式,我都让它完成:

[f@mysqldatanode ~]# mdadm --detail /dev/md1
/dev/md1:
        Version : 00.90.03
  Creation Time : Thu Apr 19 15:28:52 2007
     Raid Level : raid1
     Array Size : 479893568 (457.66 GiB 491.41 GB)
    Device Size : 479893568 (457.66 GiB 491.41 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Fri Dec 25 10:03:50 2009
          State : clean
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

           UUID : ab4849de:1f4f41c4:defd01e8:a4979ca6
         Events : 0.78

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       1       8       18        1      active sync   /dev/sdb2
Run Code Online (Sandbox Code Playgroud)

我查看了一些日志 (/var/log/messages*) 并发现了几条类似于以下指示硬盘故障的消息:

Dec 21 11:39:47 localhost kernel: sd 0:0:1:0: SCSI error: return code = 0x08000002
Dec 21 11:39:47 localhost kernel: sdb: Current: sense key: Medium Error
Dec 21 11:39:47 localhost kernel:     Additional sense: Unrecovered read error
Dec 21 11:39:47 localhost kernel: Info fld=0x3348912
Dec 21 11:39:47 localhost kernel: end_request: I/O error, dev sdb, sector 53774610
Dec 21 11:39:47 localhost kernel: raid1:md1: read error corrected (8 sectors at 53565760 on sdb2)
Dec 21 11:39:48 localhost kernel: raid1: sdb2: redirecting sector 53565648 to another mirror
Run Code Online (Sandbox Code Playgroud)

然后我尝试寻找坏块,它以同样的方式再次锁定。

[f@mysqldatanode ~]# badblocks -s /dev/md1
Checking for bad blocks (read-only test):               0/      479893568
Run Code Online (Sandbox Code Playgroud)

那么我应该如何评估两个驱动器的健康状况呢?由于有问题的阵列包含根挂载点,我是否需要将它们移动到另一台机器来分析它们?

Run*_*sen 11

您可以通过 mdadm 使 /dev/sdb 设备失败(最好确保您使整个设备失败,即运行它的所有 mds)然后检查它是否有错误,但根据您的描述,您很可能最好更换设备.

我的 ide 设备经常出现故障,我不断重新添加被拒绝的设备,直到最后计算机开始像您描述的那样挂起。更换故障设备解决了问题。

无论哪种情况,您都应该尽快进行备份。

  • +1 表示“只需更换驱动器”。如今,磁盘花费了大约 5 分钟的系统管理员时间。 (3认同)