确定 30 分钟后 SSD 故障的原因

Bot*_*Net 1 ssd

我们在与本地托管公司合作的塔式服务器中有一个 64GB SSD 驱动器。这个驱动器和输入系统是大约六个月前建造的,全新的部件。

直到本周末,SSD/系统都运行良好。我们正在运行 CentOS 6.2

完美启动后,系统可以使用大约 20-30 分钟(与时间没有真正的一致性),然后驱动器开始变得有趣。

图书馆开始说他们无法加载,ssh 开始拒绝公钥登录。关机开始说“输入/输出错误”。一些程序开始指示驱动器是只读的。

仅使用了 64GB 中的 25GB。

我找不到任何表明发生了什么的错误。我尝试从驱动器上的 live cd 运行 fsck 并且它没有显示任何问题并且大多数时间启动工作正常。有一个引导说“找不到操作系统”,但这种情况不再发生了。

我在哪里可以找到有关发生情况的日志?我还应该做其他磁盘检查吗?这似乎是一个可修复的问题,而不是我需要一个新驱动器。

更新:

我在重新启动服务器后启用了 SMART。经过 1 小时的正常运行时间和系统正常运行(正在运行的服务是 httpd、mysql,但几乎没有流量),突然事情就停止了。在正常运行的一小时内,它通过智能健康检查的 PASS 做出响应。一小时后我再次尝试(通过 webmin),现在它说 SMART 已禁用。

硬盘驱动器现在显示了我以前见过的相同问题 - 尝试大多数命令显示“输入/输出错误”。

现在运行智能健康检查显示:

Log Sense failed, IE page [scsi response fails sanity test]
Run Code Online (Sandbox Code Playgroud)

我能做些什么来找出是什么导致随机一段时间后失败?它完美地运行了 30-60 分钟,然后它开始像这样奇怪。

更新 2

有些人要求我尝试 dmesg,结果如下:http : //www.pastie.org/private/hk7jfhxilj7ypy828irna。其他人建议我不要假设它是驱动器,而可能是驱动器控制器。我不明白如何确定错误是控制器还是驱动器 - 除了尝试不同的驱动器。如果我必须购买更换主板或驱动器,我需要知道哪个首先出现故障。

运行 fsck 显示:

fsck from util-linux-ng 2.17.2
e2fsck 1.41.12 (17-May-2010)
fsck.ext4: Superblock invalid, trying backup blocks...
fsck.ext4: Bad magic number in super-block while trying to open /dev/mapper/vg_192-lv_root

The superblock could not be read or does not describe a correct ext2
filesystem.  If the device is valid and it really contains an ext2
filesystem (and not swap or ufs or something else), then the superblock
is corrupt, and you might try running e2fsck with an alternate superblock:
    e2fsck -b 8193 <device>
Run Code Online (Sandbox Code Playgroud)

Joe*_*las 6

SSD 是出了名的脆弱。Jeff Atwood在这里概述了一些失败率。它们将在没有任何警告的情况下失败,并将您的数据变成遥远的记忆。

看起来是时候进行 RMA 并从备份中恢复了。不过,这应该不是问题,因为您不是在单个非 RAID 磁盘上运行生产服务器,对吧?而且您肯定有最近的备份可以用来重新站起来,对吗?

对?

  • .........对? (2认同)

Wes*_*ley 5

如果您的硬盘驱动器具有SMART统计信息(并且几乎可以保证有它们),请使用 SMART 实用程序来剔除所有可用的消息和统计信息。答案可能就在那里,或者至少是关于下一步该往哪里看的一些暗示。


编辑

考虑到您可能误导了您的怀疑。您的驱动控制器可能是问题的一部分。查看它收集的指标以及它创建的日志。暂时把它留在嫌疑人的圈子里。在被证明无罪之前,IT 中的一切都是有罪的。