如何确定 mdadm raid 中出现故障/已移除的 HDD?

Dim*_*nNe 3 hard-drive mdadm smartctl

我目前的 mdstat:

$ cat /proc/mdstat 
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10] 
md0 : active raid6 sde[8] sdh[4] sdg[1] sdd[6] sdb[5] sdc[7]
      9766914560 blocks super 1.2 level 6, 512k chunk, algorithm 2 [7/6] [UUUUU_U]

unused devices: <none>
Run Code Online (Sandbox Code Playgroud)

这是 mdadm --detail:

$ sudo mdadm --detail /dev/md0
/dev/md0:
        Version : 1.2
  Creation Time : Fri Apr 26 21:52:21 2013
     Raid Level : raid6
     Array Size : 9766914560 (9314.46 GiB 10001.32 GB)
  Used Dev Size : 1953382912 (1862.89 GiB 2000.26 GB)
   Raid Devices : 7
  Total Devices : 6
    Persistence : Superblock is persistent

    Update Time : Tue Mar 28 15:19:34 2017
          State : clean, degraded 
 Active Devices : 6
Working Devices : 6
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : server:0  (local to host server)
           UUID : 7dfb32ef:8454e49b:ec03ac98:cdb2e691
         Events : 34230

    Number   Major   Minor   RaidDevice State
       8       8       64        0      active sync   /dev/sde
       1       8       96        1      active sync   /dev/sdg
       4       8      112        2      active sync   /dev/sdh
       5       8       16        3      active sync   /dev/sdb
       6       8       48        4      active sync   /dev/sdd
      10       0        0       10      removed
       7       8       32        6      active sync   /dev/sdc
Run Code Online (Sandbox Code Playgroud)

我的问题是:

  1. 我应该如何找出移除的硬盘?没有技巧和猜测,比如从我系统中的所有可用硬盘 (ls /dev/sd*) 中减去 mdadm 输出中显示的一组磁盘,等等......
  2. 为什么 mdadm 可以删除磁盘?如果我运行 smartctl 测试并且它们成功完成,是否可以重新添加它?

更新 正确答案是 sdf。我通过比较 mdadm 输出中显示的一组磁盘和系统中的所有磁盘(sda - 是操作系统的引导磁盘)找到了它,但我仍然发现这样的过程太困难了。

小智 6

您可以运行mdadm --detail /dev/md0以获取 RAID 阵列的 UUID,在您的情况下,它是“7dfb32ef:8454e49b:ec03ac98:cdb2e691”。

然后运行mdadm --examine /dev/sda并检查Array UID它属于什么。如果它是相同的并且mdadm --detail /dev/md0输出中缺少 sda ,那么很可能是该磁盘已被删除。

我无法回答mdadm删除磁盘的原因,除了您应该能够dmesg/var/log.

如果这些地方看起来没问题,并且SMART说磁盘没问题,那么再次添加它应该是安全的。

我建议您进行配置,mdadm --monitor以便在发生任何事情时运行并监控您的 RAID 集并通过电子邮件发送给您。