如何在 CentOS 6 下监控 Dell PERC H710 Raid Controller 背后的硬盘状态?

Xia*_*lin 28 raid storage centos hardware-raid dell-perc

我有一台CentOS 6使用PERC H710Raid 5 设置的 Raid 控制器卡运行的戴尔服务器,我想监控 Raid 控制器背后的硬盘故障/工作状态。

然后我应该能够使用 bash 脚本来监视硬盘状态并在出现问题时发送警报电子邮件。

CentOS/Red Hat/Linux的LSI MegaRAID SAS命令工具(About LSI MegaRAID SAS Linux Tools)不支持 PERC H710 和smartctl也不支持。

根据戴尔网站,CentOS此服务器不支持 ( NX3200 PowerVault) 并且我无法下载任何 linux 程序来监控硬盘。

[root@server ~]# lspci | grep RAID
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)


[root@server ~]# smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               DELL
Product:              PERC H710
Revision:             3.13
User Capacity:        299,439,751,168 bytes [299 GB]
Logical block size:   512 bytes
Logical Unit id:      ....
Serial number:        ....
Device type:          disk
Local Time is:        Tue Apr 15 16:38:30 2014 SGT
Device does not support SMART

Error Counter logging not supported
Device does not support Self Test logging
Run Code Online (Sandbox Code Playgroud)

有人知道如何在 CentOS 6 的 Dell PERC H710 上监控硬件突袭背后的硬盘状态吗?

小智 28

您可以使用 smartctl 命令及其-d参数查看磁盘的 SMART 状态。例如,要查看阵列中的第一个磁盘:

# smartctl -a /dev/sda -d sat+megaraid,00
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.6.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST91000640NS
Serial Number:    ........
LU WWN Device Id: . ...... .........
Firmware Version: AA08
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P     showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jul 10 11:21:52 2014 WEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
...
...
#
Run Code Online (Sandbox Code Playgroud)

这是在带有 smartmontools-5.43-1.el6.x86_64 的 Scientific Linux 6(另一个基于 RHEL6 的操作系统)上。


eww*_*ite 27

SMART不是在磁盘或存储监控一锤定音!它是一个组件,但现代 RAID 控制器使用它和其他方法来确定驱动器和阵列的健康状况。

我假设这是 Dell PowerEdge 服务器中的 PERC 控制器。

对戴尔硬件进行健康监控的正常 Linux 友好方法是通过 Yum 安装适用于 Linux 的戴尔 OMSA 代理 - http://linux.dell.com/wiki/index.php/Repository/OMSA#Yum_setup

yum install srvadmin-all将安装全套代理。安装后,您可以使用该omreport命令获取有关阵列的信息

例子:

$ omreport storage vdisk

$ omreport storage pdisk controller=0

$ omreport storage vdisk controller=0 vdisk=1
Run Code Online (Sandbox Code Playgroud)

  • 这将在我的 Linux 机器上安装额外的组件,如 web 服务器/ssl,但似乎我别无选择!我讨厌在我的服务器中添加不必要的包。 (8认同)
  • PERC 7xx 和 8xx 控制器只是 LSI Megaraid 控制器,如果您不想用戴尔库和他们最近丢弃的任何其他服务和/或内核模块污染您的系统,LSI MegaCLI 工具将可以正常工作。对于 LSI 二进制文件,有大量 MegaCLI 备忘单、nagios 监控脚本和 [性能调整](https://calomel.org/megacli_lsi_commands.html) 提示。当然,这只是我个人的喜好和意见。我是一个极简主义者。 (8认同)
  • 当心那些 OMSA 程序之一的潜在内存泄漏。它在 3-4 周的过程中慢慢地发生在我身上,然后繁荣,Linux 根本没有更多的内存。 (2认同)

Mik*_*e S 10

接受的答案推荐大胆的yum install srvadmin-all。布莱奇。以下是如何使它稍微减少 blecch-y(但仍然是 blecch-y;您可以在 HP 的平台上变得更精简。但我离题了......)我的意思是,只安装那些管理机器上存储所需的组件.

顺便说一句,用户问题的直接答案在于下面列表中的“在 vdisk 0 上显示物理磁盘”项。

wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi > bootstrap.cgi
bash bootstrap.cgi
yum install srvadmin-base
yum install srvadmin-storageservices
Run Code Online (Sandbox Code Playgroud)

添加到 root 的 .bashrc:

export PATH=$PATH:/opt/dell/srvadmin/bin
Run Code Online (Sandbox Code Playgroud)

享受:

RAID 命令

更多信息

顺便说一句,由于这只不过是戴尔品牌的 LSI MegaCLI 卡,您可能会发现 Han Solo 的答案更好!不过,我还没有尝试过。

甜蜜

下面是 omreport 输出的一个例子,通过 grep 管道传输一个美味的数据包:

$ omreport storage pdisk controller=0 vdisk=0 | grep -v ": Not "
List of Physical Disks belonging to root

Controller PERC H700 Integrated (Embedded)
ID                              : 0:0:0
Status                          : Ok
Name                            : Physical Disk 0:0:0
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFDT
Part Number                     : CN0X162K7262213800JTA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E44C5

ID                              : 0:0:1
Status                          : Ok
Name                            : Physical Disk 0:0:1
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFEY
Part Number                     : CN0X162K7262213800FPA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E3C1D
Run Code Online (Sandbox Code Playgroud)


小智 7

我也在努力让它在 CentOS 中工作,我在这里找到了一个工作包http://mirror.ndchost.com/software/lsi/

称为“ MegaCli-8.07.10-1.noarch.rpm

命令参考http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS

我希望它有帮助。


Ste*_*nds 5

如果你问得好的话,该perccli命令还可以向你显示很多驱动器信息:

# /opt/MegaRAID/perccli/perccli64 /c0/e32/s0 show all
Controller = 0
Status = Success
Description = Show Drive Information Succeeded.


Drive /c0/e32/s0 :
================

-------------------------------------------------------------------------
EID:Slt DID State DG       Size Intf Med SED PI SeSz Model            Sp
-------------------------------------------------------------------------
32:0      0 UGood -  278.875 GB SAS  HDD N   N  512B ST3300657SS      U
-------------------------------------------------------------------------

EID-Enclosure Device ID|Slt-Slot No.|DID-Device ID|DG-DriveGroup
DHS-Dedicated Hot Spare|UGood-Unconfigured Good|GHS-Global Hotspare
UBad-Unconfigured Bad|Onln-Online|Offln-Offline|Intf-Interface
Med-Media Type|SED-Self Encryptive Drive|PI-Protection Info
SeSz-Sector Size|Sp-Spun|U-Up|D-Down/PowerSave|T-Transition|F-Foreign
UGUnsp-Unsupported|UGShld-UnConfigured shielded|HSPShld-Hotspare shielded
CFShld-Configured shielded|Cpybck-CopyBack|CBShld-Copyback Shielded


Drive /c0/e32/s0 - Detailed Information :
=======================================

Drive /c0/e32/s0 State :
======================
Shield Counter = 0
Media Error Count = 0
Other Error Count = 0
Drive Temperature =  40C (104.00 F)
Predictive Failure Count = 1
S.M.A.R.T alert flagged by drive = Yes
Run Code Online (Sandbox Code Playgroud)

需要对每个外壳插槽重复此操作,或者至少我还没有找到使用单个perccli命令一次打印所有内容的方法。

与其他更全面的选项相比,它也很容易安装:

# curl -C - -O 'https://downloads.dell.com/FOLDER04470715M/1/perccli_7.1-007.0127_linux.tar.gz'
# tar xzvf ../perccli_7.1-007.0127_linux.tar.gz
# cd Linux/
# yum localinstall perccli-007.0127.0000.0000-1.noarch.rpm
# cd /opt/MegaRAID/perccli/
Run Code Online (Sandbox Code Playgroud)

perccli不是Dell OMSA 这样的全面监控套件,但听起来很多人不想要全面的东西,而是需要一个像样的、简单的工具。