我有一台CentOS 6
使用PERC H710
Raid 5 设置的 Raid 控制器卡运行的戴尔服务器,我想监控 Raid 控制器背后的硬盘故障/工作状态。
然后我应该能够使用 bash 脚本来监视硬盘状态并在出现问题时发送警报电子邮件。
CentOS/Red Hat/Linux的LSI MegaRAID SAS
命令工具(About LSI MegaRAID SAS Linux Tools)不支持 PERC H710 和smartctl
也不支持。
根据戴尔网站,CentOS
此服务器不支持 ( NX3200 PowerVault
) 并且我无法下载任何 linux 程序来监控硬盘。
[root@server ~]# lspci | grep RAID
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)
[root@server ~]# smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 …
Run Code Online (Sandbox Code Playgroud) 工程师如何处理 RAID 控制器电池“重新学习”周期?
如中所述:LSI MegaRaid 上的“电池重新学习”是什么?, 重新学习周期会使 RAID 控制器电池(BBWC 或 BBU)放电,从而取消写入缓存加速。检查电池寿命,充电后,重新启用写入缓存。在重新学习周期的持续时间内,这对服务器 I/O 性能有明显的影响。我认为这每月发生一次。
已经注意到性能下降,尤其是在数据库系统上:
我的背景是 HP ProLiant 服务器,它的Smart Array控制器没有经过这个练习(或者至少有更主动的电池寿命监控)。这似乎是一个可怕的功能(最大的不便,收益很小),但我在一个有许多 LSI 控制器(在Supermicro硬件上)的环境中,想看看是否可以将一揽子策略应用于相关系统。
这是我的情况。
我有一台带有戴尔 Perc 7i 控制器(LSI 控制器)的戴尔服务器。
我有一个驱动器给我一个故障预测警告,所以我打电话给他们的支持,他们出来更换了驱动器,并且阵列自我重建,非常标准。
两周后,我有另一个驱动器向我发出故障预测警告。我想可能是驱动器批次不好或巧合等等。所以我联系支持人员并进行更深入的研究。我意识到其他驱动器上有一个没有发生故障的坏块,并且这些坏块在重建过程中被复制了。所以现在我到处都是坏块,它们正在慢慢杀死我的阵列。我发现这被称为穿孔阵列。
所以他们的建议是更换所有驱动器,重建阵列,并从备份中恢复。除了这个问题我已经有几个星期了,这意味着我的备份很糟糕……如果我从之前(一个月前)的备份中恢复,那么我将丢失大约 4 周的数据从我的数据库中对于我们的办公室来说是完全不能接受的。
我的问题是......有没有人从这样的事情中恢复过来而不必丢失数据或没有整个(将其全部扔出窗口并重新开始)方法?
我确实找到了一个涵盖我的场景的链接,不确定它是否说明了这种情况:http : //www.theprojectbot.com/raid/what-is-a-punctured-raid-array/
任何帮助或方向将不胜感激!你们有什么感想?
我们有一台运行在Dell PowerEdge R720(PERC H710 Mini RAID 控制器)((Ubuntu 12.04)上的MySQL数据库服务器。
我们正在考虑将 2 个 146GB 15k SAS 驱动器升级到三星 840 Pro SSD。
戴尔的人只是远远太贵了!(每个驱动器近 2k),并且我们将它们放入 RAID 10,如果有任何故障,我们可以让备用驱动器备用?
有没有人有相同的设置,我们是否可能会遇到这种配置的问题?
我在网上阅读了戴尔 RAID 控制器的报告,认为它不喜欢这些驱动器并将它们随机标记为离线,但是其他人报告说人们在 RAID 中运行了 100 多个这些并且完全没有问题。
对于非常关键的数据库服务器,我们是否应该完全避免这种情况?
我需要扩展服务器的磁盘容量。该池从 1Tb 磁盘开始,然后用 2Tb 磁盘扩展。有超过 1Tb 的可用空间,即所有数据都可以轻松容纳 2Tb 部分,但当前分配在 1Tb 磁盘上。
实际上,这些磁盘是 1Tb 和 2Tb 对上的硬件 (PERC) RAID1 阵列。
我想用 3Tb 替换这些 1Tb 磁盘。“一个接一个”的替换并不是一个真正的选择。原则上,这个物理RAID可以一个个替换磁盘,然后增长阵列来填满磁盘。但是,我想避免使用此路径,因为它会在磁盘冗余丢失时留下相当长的时间段。
我想从字面上将所有数据从 1Tb 移走,然后将其删除,并替换为 3Tb。一切都将在运行中、零停机时间的情况下即时完成。
使用 LVM,操作必须非常简单易懂:
这是我以前做的例行程序。每一步都很好理解,每一步我都可以完全控制正在发生的事情,如果出现问题,我总是知道如何继续等等。
如何使用 ZFS 安全且有意识地执行相同的程序?
如果这很重要:
我最近购买了带有H730
RAID 卡的戴尔 R730xd 。我想将现有的 6 磁盘 ZFS 池带到此服务器,并创建一个额外的 6 磁盘硬件 RAID。
是否可以将H730
RAID 卡配置为同时在 HBA 和 RAID 模式下运行?然后只管理硬件 RAID 中的 6 个磁盘并允许操作系统管理软件 RAID 中的其余 6 个磁盘?
如果不是,Dell R730xd 能否同时使用H730
RAID 卡和LSI 9207-8i
HBA 卡?您会简单地将每张卡上的一根 SAS 电缆插入背板的每个部分吗?我是否需要购买任何新电缆来连接LSI 9207-8i
R730xd 中的背板?
在使用旋转磁盘的 R730xd 中,是否有比LSI 9207-8i
.
我在 Dell R720xd 和 PERC H710P 上的 MegaCli 收到奇怪的 SMART 错误,RAID5 中有五个 4Tb SATA 驱动器
/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL
Run Code Online (Sandbox Code Playgroud)
给我一些“Failure Seq Event Number”
Slot Number: 4
...
Last Predictive Failure Event Seq Number: 7309
...
Inquiry Data: PK2361PAGAZU8WHitachi HUS724040ALE640 MJAOA3B0
...
Drive has flagged a S.M.A.R.T alert : Yes
Run Code Online (Sandbox Code Playgroud)
但是 smartctl 根本没有提供驱动器有什么问题的线索:
# smartctl -a -d sat+megaraid,4 /dev/sda
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-279.19.1.el6.x86_64] (local build)
...
Serial Number: PK2361PAGAZU8W # Note same serial, no mistake
...
SMART support is: Available - …
Run Code Online (Sandbox Code Playgroud) 我有一台戴尔 R620,在 PERC H310 控制器中运行 5 500GB 7.2K RPM SATA 3Gbps 2.5 英寸热插拔硬盘驱动器(我开始后悔购买)。
我在运行 ESXi 5.0 免费许可证的 Linux VM(Fedora 19、Cent 6 和 Ubuntu 12.04)上的读/写速度很糟糕。使用精简、密集或稀疏 VMDK 没有任何区别。
一个示例 hdparm:
cached reads 9750 MB in 2.00 seconds = 4877.74 MB/sec
buffered reads: 42 MB in 3.44 seconds = 12.21 MB/sec
Run Code Online (Sandbox Code Playgroud)
还有一个 dd if=/dev/zero of=test bs=1048576 count=2048(创建一个任意的 2GB 文件)花了大约一分半钟!
我有一个非常相似的主机,带有一个软件 RAID 控制器,该控制器具有类似的虚拟机,磁盘速度要快得多。我没有设置 RAID,我只管理服务器,但是 IT 设置了它们。
数据存储显示读取的平均延迟为 1.189 毫秒,写入的延迟为 6.3 毫秒。数据存储显示 1.89 TB,所以这对于 RAID 5 中的 5 x 500 GB 驱动器来说是正确的。最初我想也许它没有使用所有驱动器。会发生什么?我已要求 IT 部门查看 RAID …
如何使用 Dell Poweredge 和磁盘阵列 (DAS) 设置 ZFS。
我对此完全陌生,并有以下问题:
TL;DR:我的管理程序存储存在一些性能问题。这里是一堆测试结果fio
。跳到该Results
部分阅读有关它们并查看我的问题。
概括
我最近购买了 R730xd,因此在迁移到它之前,我想确保存储性能最佳。我一直在用fio运行一些基准测试,并发现了一些令人震惊的结果。使用这些结果和fio-plot的组合,我收集了大量图形和图表,展示了我的各种存储后端的问题。
然而,我很难把它变成可用的信息,因为我没有任何东西可以比较它。而且我认为我遇到了一些非常奇怪的性能问题。
磁盘配置
以下是暴露给我的管理程序 (Proxmox) 的四种类型的存储:
?????????????????????????????????????????????????????????????????????????????????????????
? Storage ? Hardware ? Filesystem ? Description ?
?????????????????????????????????????????????????????????????????????????????????????????
? SATADOM ? 1x Dell K9R5M SATADOM ? LVM/XFS ? Hypervisor filesystem ?
? FlashPool ? 2x Samsung 970 EVO M.2 SSD ? ZFS RAID 1 ? Hypervisor Compute Storage ?
? DataPool ? 6x HGST 7200RPM HDD ? ZFS RAID 10 ? Redundant Data Storage ?
? RAIDPool …
Run Code Online (Sandbox Code Playgroud)