Phi*_*hil 44 hard-drive drive-failure
Google对硬盘驱动器故障进行了非常彻底的研究,发现很大一部分硬盘驱动器在大量使用的前 3 个月内出现故障。
我和我的同事认为我们可以为所有新硬盘驱动器实施老化过程,这可能会使我们免于在未经测试的新驱动器上浪费时间而感到心痛。但在我们实施老化过程之前,我们希望从其他更有经验的人那里获得一些见解:
编辑:由于业务的性质,大部分时间都无法使用 RAID。我们必须依靠在全国范围内频繁邮寄的单个驱动器。我们会尽快备份驱动器,但在我们有机会备份数据之前,我们仍然会在这里和那里遇到故障。
我的公司已经实施了一段时间的老化过程,事实证明它非常有用。我们立即烧毁所有库存的新驱动器,使我们能够在保修期满之前和将它们安装到新计算机系统之前发现许多错误。事实证明,验证驱动器是否已损坏也很有用。当我们的一台计算机开始遇到错误并且硬盘驱动器是主要嫌疑人时,我们将在该驱动器上重新运行老化过程并查看任何错误以确保驱动器确实是问题,然后再开始 RMA 过程或抛出它在垃圾桶里。
我们的老化过程很简单。我们有一个指定的 Ubuntu 系统,有很多 SATA 端口,我们在读/写模式下运行坏块,每个驱动器上有 4 次传递。为了简化事情,我们编写了一个脚本来打印“数据将从您的所有驱动器中删除”警告,然后在除系统驱动器之外的每个驱动器上运行坏块。
Mik*_*eyB 49
恕我直言,您不应该依靠老化过程来清除坏驱动器并“保护”您的数据。开发和实施此程序需要花费一些时间,而这些时间本可以在其他地方更好地使用,即使驱动器通过老化,几个月后它仍然可能会失败。
您应该使用 RAID 和备份来保护您的数据。一旦到位,让它担心驱动器。良好的 RAID 控制器和存储子系统将具有“清理”过程,这些过程会不时检查数据并确保一切正常。
一旦这一切都解决了,就没有必要进行磁盘清理,尽管正如其他人提到的那样,进行系统负载测试以确保一切都按您的预期工作并没有什么坏处。我根本不会担心单个磁盘。
正如评论中所提到的,为您的特定用例使用硬盘驱动器没有多大意义。运送它们更有可能导致数据错误,而这些错误在您进行老化时不会出现。
磁带介质设计为可随处运输。您可以使用单个 IBM TS1140 驱动器获得 250MBps(或高达 650MBps 的压缩速度),该驱动器应该比您的硬盘驱动器更快。并且更大 - 单个磁带可以为您提供高达 4TB(未压缩)的容量。
如果您不想使用磁带,请使用 SSD。它们可以比 HDD 更粗糙地处理,并满足您迄今为止提出的所有要求。
毕竟,这是我对您的问题的回答:
shred并badblocks会做。之后检查 SMART 数据。Zor*_*che 38
在开始使用硬盘驱动器之前刻录它有多重要?
如果您有良好的备份和良好的高可用性系统,则不会太多。由于从故障中恢复应该很容易。
您如何实施老化过程?用什么软件刻录光驱?对于老化过程来说,多大的压力太大了?
当我得到它时,我通常会针对驱动器或新系统运行坏块。每当我从备件堆中复活一台计算机时,我都会运行它。像这样的命令 ( badblocks -c 2048 -sw /dev/sde) 实际上每次都会以不同的模式(0xaa、0x55、0xff、0x00)写入每个块 4 次。此测试不会测试大量随机读/写,但它应该证明每个块也可以写入和读取。
您还可以运行bonnie++或iometer,它们是基准测试工具。这些应该尝试对您的驱动器施加一点压力。即使您尝试将其最大化,驱动器也不应该出现故障。所以你不妨试试看他们能做什么。不过我不这样做。在安装/设置时获得存储系统的 I/O 基准测试可能在将来查看性能问题时非常有用。
你在硬盘上刻录多久?
我认为单次运行坏块就足够了,但我相信我有一个非常强大的备份系统,我的 HA 需求并不高。我可以承受一些停机时间来恢复我支持的大多数系统上的服务。如果您非常担心,认为可能需要多次设置,那么您可能应该拥有 RAID、良好的备份和良好的 HA 设置。
如果我赶时间,我可能会跳过老化。我的备份和 RAID 应该没问题。
鉴于您的澄清,听起来任何老化过程对您都没有任何用处。驱动器故障主要是由于机械因素,通常是热量和振动;不是因为任何隐藏的定时炸弹。“老化”过程就像测试其他任何东西一样测试安装环境。一旦你移动了这个东西,你就会回到你开始的地方。
但这里有一些提示可能会对您有所帮助:
笔记本电脑驱动器通常设计为能够承受比台式机驱动器更多的推挤和振动。出于这个原因,我在数据恢复商店工作的朋友总是将数据通过笔记本电脑驱动器发送给客户。我从未测试过这个事实,但它似乎是某些行业的“常识”。
闪存驱动器(例如 USB 拇指驱动器)是您能找到的所有介质中最抗震的。如果您使用闪存介质,则在传输过程中丢失数据的可能性甚至更小。
如果您运送 Winchester 驱动器,请在使用前进行表面扫描。或者更好的是,只是不要使用它。相反,您可能希望将某些驱动器指定为“运输”驱动器,这些驱动器会发现所有滥用情况,但您不依赖它们来保证数据完整性。(即:将数据复制到驱动器以进行运输,运输后复制,双方非常校验和,诸如此类)。
你的过程是错误的。您应该使用raid 阵列。在我工作的地方,我们制造了坚固耐用的 RAID 阵列,设计用于运输。这不是火箭科学。
将驱动器安装在带有大橡胶隔振器的超大外壳中将极大地提高可靠性。(Seagate constellation-es 硬盘,例如额定 300G 冲击但只有 2G 振动,非操作:因此运输箱需要振动隔离硬盘。http://www.novibes.com/Products&productID=62或http ://www.novibes.com/Products&productId=49 [part #50178])
但是,如果您真的想对硬盘进行刻录测试,那么就可以了。
我曾在硬盘驱动器之类的系统上工作过,但发现了一些问题,但是......
对于 PCB 的加速生命周期测试以找出故障,没有什么比一些热/冷循环更好的了。(操作冷热循环效果更好......但你很难做到,尤其是硬盘组)
为自己准备一个足以容纳您一次获得的驱动器数量的环境室。(这些非常昂贵,运送raid 阵列会更便宜)你不能吝啬你需要湿度控制和可编程斜坡的测试室。
在两个重复的温度斜坡中编程,从最低存储温度到最高存储温度,使斜坡足够陡峭,让您的硬盘驱动器制造商的应用工程师感到不安。12 小时内 3 个冷热循环应该会看到驱动器很快出现故障。像这样运行驱动器至少 12 小时。如果之后有任何工作,我会感到惊讶。
我没想到:我工作的一个地方,我们有一个生产工程师这样做,为了让更多的产品用相同的测试设备发货,测试中的故障激增,但到货率下降到几乎零。
我不同意所有基本上说“不要担心老化,有好的备份”的答案。
虽然你应该总是有备份,但我昨天花了 9 个小时(在我通常的 10 小时轮班之外)从备份中恢复,因为系统运行的驱动器没有被烧毁。
RAIDZ2 配置中有 6 个驱动器(ZFS 相当于 RAID-6),我们在 18 小时内在一个已经运行了大约 45 天的机器上死了 3 个驱动器。
我发现的最佳解决方案是从特定制造商处购买驱动器(不要混合搭配),然后运行他们提供的工具来运行驱动器。
在我们的例子中,我们购买了 Western Digital 并使用他们的基于 DOS 的驱动器诊断从可引导 ISO。我们启动它,运行将随机垃圾写入整个磁盘的选项,然后运行短 SMART 测试,然后运行长 SMART 测试。这通常足以清除所有坏扇区,读/写重新分配等......
我仍在尝试找到一种合适的方式来“批处理”它,以便我可以一次在 8 个驱动器上运行它。可能只在 Linux 中使用 'dd if=/dev/urandom of=/dev/whatever' 或 'badblocks'。
编辑:我找到了一种更好的“批处理”方法。我终于开始在我们的网络上设置 PXE 引导服务器以满足特定需求,并注意到 Ultimate Boot CD 可以被 PXE 引导。我们现在有一些垃圾机器,可以通过 PXE 启动来运行驱动器诊断。
| 归档时间: |
|
| 查看次数: |
25932 次 |
| 最近记录: |