Cal*_*leb 16 cooling hard-drive temperature case hardware-failure
背景
我家里的个人台式机系统内部装有 5 个 SATA 驱动器。最近我的系统开始以奇怪的方式失败,比如随机内核恐慌,我最终将其追溯到 RAID 阵列上的随机降级。有时我可以启动,有时我不能等等。在追查软件问题一段时间后,我终于去拔驱动器并发现了它们失败的真正原因:它们比 7 月 4 日的烧烤更热!前机箱风扇卡住了,PS 风扇有一个松动的电源连接器卡在它的炉排上,所以机箱内部一直在做饭。
作为一个坚持,我找到了一个室内风扇,让那个吸盘冷却了。它运行得很好,一切都很好。大约这次我学会了如何从 SMART 获取驱动器温度读数
for i in a b c d e; do
sudo smartctl --all /dev/sd$i | grep Temperature_Celsius
done
Run Code Online (Sandbox Code Playgroud)
现在我知道,我的机箱打开了一个室内风扇,永久清除了驱动器以 31-32° 运行的蜘蛛网。在没有通风的情况下进行快速测试以复制故障状态,显示驱动器很快就达到了 40 多秒。我不知道实际失败时情况有多糟糕,或者这样的情况持续了多久。
考虑到这一点,我更换了出现故障的风扇,再增加了几个,将前风扇从 80 毫米升级到 120 毫米,然后将其关闭。随着它再次直立,温度范围现在通常位于设备底部的 32° 和顶部的 37°。
问题
SATA 驱动器的一般安全工作温度范围是多少?37° 应该是一个问题还是驱动器损坏在某个点之后才成为问题?
尽管这些驱动器现在似乎测试良好,但过去暴露在高温下使它们现在容易发生故障的可能性有多大?
hai*_*img 26
37度应该不是问题。当然,硬盘驱动器的规格不同,有些可以比其他的更热。您应该检查您拥有的驱动器的已发布规格。例如,WD Caviar Black 1TB 的工作温度为 -0°C 至 60°C。当然,您不希望驱动器运行 60°,因为这可能会缩短其使用寿命。
谷歌根据从其系统(数千个硬盘)收集的数据,发布了一项关于硬盘健康和寿命的非常有趣的研究(PDF)。该研究说:
总体而言,我们的实验可以确认先前报告的温度影响仅适用于我们温度范围的高端,尤其是对于较旧的驱动器。在较低和中等温度范围内,较高的温度与较高的故障率无关。这是一个相当令人惊讶的结果,这可能表明数据中心或服务器设计人员在为包含磁盘驱动器的设备设置工作温度时拥有比以前想象的更多的自由。
他们的图表显示,直到驱动器温度超过 45 度,故障率才会上升。