Google对硬盘驱动器故障进行了非常彻底的研究,发现很大一部分硬盘驱动器在大量使用的前 3 个月内出现故障。
我和我的同事认为我们可以为所有新硬盘驱动器实施老化过程,这可能会使我们免于在未经测试的新驱动器上浪费时间而感到心痛。但在我们实施老化过程之前,我们希望从其他更有经验的人那里获得一些见解:
编辑:由于业务的性质,大部分时间都无法使用 RAID。我们必须依靠在全国范围内频繁邮寄的单个驱动器。我们会尽快备份驱动器,但在我们有机会备份数据之前,我们仍然会在这里和那里遇到故障。
我的公司已经实施了一段时间的老化过程,事实证明它非常有用。我们立即烧毁所有库存的新驱动器,使我们能够在保修期满之前和将它们安装到新计算机系统之前发现许多错误。事实证明,验证驱动器是否已损坏也很有用。当我们的一台计算机开始遇到错误并且硬盘驱动器是主要嫌疑人时,我们将在该驱动器上重新运行老化过程并查看任何错误以确保驱动器确实是问题,然后再开始 RMA 过程或抛出它在垃圾桶里。
我们的老化过程很简单。我们有一个指定的 Ubuntu 系统,有很多 SATA 端口,我们在读/写模式下运行坏块,每个驱动器上有 4 次传递。为了简化事情,我们编写了一个脚本来打印“数据将从您的所有驱动器中删除”警告,然后在除系统驱动器之外的每个驱动器上运行坏块。
我正在设置两个新的 4TB 硬盘驱动器的 RAID1 阵列。
我以前在某个地方听说过,将同时购买的新相同硬盘驱动器制作成 RAID1 阵列会增加它们在相似时间点发生故障的可能性。
因此,我正在考虑单独使用其中一个硬盘驱动器一段时间(可能是几周),以尝试减少两者在短时间内出现故障的可能性。(未使用的驱动器将保持断开连接在抽屉中)
这似乎是一种合理的方法,还是我更有可能只是在浪费时间?
我最近一直在研究 RAID5 与 RAID6,我一直看到 RAID5 不再足够安全,因为 URE 等级和驱动器的大小不断增加。基本上,我发现的大部分内容都说,在 RAID5 中,如果磁盘出现故障,如果阵列的其余部分为 12TB,那么您几乎有 100% 的机会遇到 URE 并丢失数据。
12TB 的数字来自这样一个事实,即磁盘的额定读取率为 10^14 位以达到一个 URE。
好吧,有些事情我没有得到。读取是由磁头在扇区上完成的,导致读取失败的原因是磁头死亡或扇区死亡。也可能是因为其他原因读数不起作用(我不知道,就像振动使头部跳动......)。所以,让我解决所有 3 种情况:
如您所见,从我确定的 3 个故障点来看,没有任何意义。那么到底什么是URE,我的意思是具体的?
有人可以向我解释一下吗?
编辑 1
在第一波答案之后,似乎原因是该部门失败了。好消息是固件、RAID 控制器和操作系统 + 文件系统有适当的程序来及早检测并重新分配扇区。
好吧,我现在知道什么是 URE(实际上,这个名字是不言自明的 :))。
我仍然对根本原因感到困惑,主要是他们给出的稳定评级。
有些人将失败的扇区归因于外部来源(宇宙波),然后我感到惊讶的是 URE 率是基于读取计数而不是年龄,宇宙波确实应该对旧磁盘产生更多影响,因为它已被暴露更多,我认为这更像是一种幻想,尽管我可能是错的。
现在是与磁盘磨损有关的另一个原因,有人指出较高的密度会产生较弱的磁畴,这是完全有道理的,我将遵循解释。但是正如这里很好地解释的那样,新的不同大小的磁盘主要是通过在 HDD 机箱中放置或多或少相同的盘片(然后相同的密度)来获得的。扇区是相同的,并且都应该具有完全相同的可靠性,因此较大的磁盘应该比较小的磁盘具有更高的评级,读取的扇区较少,情况并非如此,为什么?这虽然可以解释为什么采用新技术的新磁盘没有比旧磁盘获得更好的评级,仅仅是因为更好的技术收益被更高密度造成的损失所抵消。
今天早上,我们的数据库服务器上的一个驱动器出现故障。驱动器阵列(3 个磁盘)设置为 RAID 5 配置。
在等待驱动器更换期间,我们正在准备恢复策略。用户继续在系统上工作,尽管速度很慢(不知道为什么??)。
如何安装新驱动器 - 该驱动器的数据会自动从奇偶校验重建还是我们应该遵循另一个过程?
编辑: 这是一个硬件 RAID 控制器。(感谢到目前为止的答案,不胜感激)
我有一台 300G Western Digital Raptor,最近显示 UNC SMART,想知道有经验的人知道我应该更换它并获得 WD 保修吗?
smartctl -a 详情如下:
smartctl 5.41 2011-06-09 r3365 [FreeBSD 8.2-RELEASE-p6 amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Model Family: Western Digital VelociRaptor
Device Model: WDC WD3000HLFS-01G6U0
Serial Number: WD-WXD0C79C8807
LU WWN Device Id: 5 0014ee 0ac3cfaf0
Firmware Version: 04.04V01
User Capacity: 300,069,052,416 bytes [300 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: …
Run Code Online (Sandbox Code Playgroud) 我的故事开始很简单。我有一台运行 Arch Linux 的轻型服务器,它将大部分数据存储在由两个 SATA 驱动器组成的 RAID-1 上。它工作了大约 4 个月没有任何问题。然后,突然间我开始在其中一个驱动器上出现读取错误。总是,这些消息看起来很像这样:
Apr 18 00:20:15 hope kernel: [307085.582035] ata5.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Apr 18 00:20:15 hope kernel: [307085.582040] ata5.01: failed command: READ DMA EXT
Apr 18 00:20:15 hope kernel: [307085.582048] ata5.01: cmd 25/00:08:08:6a:34/00:00:27:00:00/f0 tag 0 dma 4096 in
Apr 18 00:20:15 hope kernel: [307085.582050] res 51/40:00:0c:6a:34/40:00:27:00:00/f0 Emask 0x9 (media error)
Apr 18 00:20:15 hope kernel: [307085.582053] ata5.01: status: { DRDY ERR }
Apr 18 00:20:15 hope …
Run Code Online (Sandbox Code Playgroud) 我有一台运行 VMware ESXi v4.1.0 348481 的服务器。它有一个硬件 RAID10 和一个 SATA 备份驱动器。我有一个正在运行的虚拟机,它在 RAID10 数据存储上有主引导 vmdk,在 SATA 备份驱动器的数据存储上有一个 600 GB vmdk。VM 运行带有 FreeBSD 内核的 Debian linux,并使用 ZFS 作为备份驱动器。
编辑:驱动器不直接连接到 VM。它用作 VMware 数据存储,并且 VM 在 SATA 驱动器的数据存储上有一个 vmdk。数据存储是不完整的(只有65%满)
我使用 SSH 登录到服务器,发现昨晚的备份挂了,zfs list
或者zpool list
两者都挂了。所以我在 ESXi 中打开了虚拟控制台,很伤心地看到:
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec …
Run Code Online (Sandbox Code Playgroud) 我只是对发生硬盘驱动器故障的原因很感兴趣。有人说是因为在运输和运输过程中处理不好,也有人说是因为高温/长时间的剧烈使用,但我什至听到有人说是因为灰尘。
硬盘驱动器故障的最可能答案和原因是什么?
半高 LTO-6 驱动器的所有 LED 都以 ~ 4 Hz 的频率闪烁。LTO-5 磁带仍在里面,驱动器对命令没有反应,在重启后继续闪烁。
我在 Tandberg 手册中找不到错误代码。该驱动器已有大约 3 年的历史,并且只有大约 15 次完整备份的历史记录,磁带已写入两次。所以我不指望机械磨损,而是电子问题。
这款 Tandberg LTO-6 驱动器是单独外壳中的 LTO-6 HP 驱动器,因此了解此代码对于 HP LTO-6 驱动器的含义也将有所帮助。
谁知道代码的含义以及它在哪里记录?