smartd 真的报告这个驱动器太热了吗?

Edw*_*118 17 linux smartctl

“SMART 使用属性:194 Temperature_Celsius 从 146 更改为 150”。这是在 CentOS 6.6 上。

这到底是什么意思?驱动器真的很热还是这可能是软件错误?该驱动器是 eSATA 2TB 驱动器,摸起来很凉爽,位于地下室的服务器为 70F。

# smartctl -A /dev/sdb
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-504.16.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   134   134   054    Pre-fail  Offline      -       89
  3 Spin_Up_Time            0x0007   123   123   024    Pre-fail  Always       -       507 (Average 505)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       89
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   135   135   020    Pre-fail  Offline      -       26
  9 Power_On_Hours          0x0012   096   096   000    Old_age   Always       -       29541
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       71
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       205
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       205
**194 Temperature_Celsius     0x0002   150   150   000    Old_age   Always       -       40 (Min/Max 20/49)**
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       9
Run Code Online (Sandbox Code Playgroud)

Fox*_*Fox 19

那只是 SMART 属性值。它不是任何常规单位中的温度。(它更像是一个介于 255(真的很冷)和 0(真的很热)之间的数字,取决于驱动器什么是热的,什么不是)

如果您想查看驱动器使用的温度 smartctl -A /dev/sdx

你会得到这样的表:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
194 Temperature_Celsius     0x0022   107   097   000    Old_age   Always       -       45
Run Code Online (Sandbox Code Playgroud)

RAW_VALUE 就是你要找的......(我的驱动器在 45°C 时很热)

VALUE是属性值,当它低于 时THRESH,驱动器准备要求更换。(不是所有的属性都有阈值,就像我的体温一样)

至于什么是热的,什么不是,这真的取决于驱动。谷歌有一篇关于驱动器故障率的过时论文,其中指出驱动器在 40°C 左右的故障率最低(至少对于谷歌和 2007 年)。我记得读过另一篇论文(现在找不到了)说,高温不是硬盘的问题。急剧和频繁的温度变化会导致磁盘更快出现故障。因此,只要驱动器温度非常稳定(您可以使用munin 之类的东西来监控它),您应该没问题。

smartd正在报告属性的任何变化。这并不意味着有什么问题。