syslog 中的这些磁盘错误是什么意思?

Sov*_*ero 14 hard-drive dmesg boot

我刚刚第一次重新启动了我的监控服务器,下面开始填充屏幕:

Jul 11 23:52:30 monit kernel: [   25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [   25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [   25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [   25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [   25.256416]          res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [   25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [   25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [   25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [   25.304430] ata1: EH complete

. . . 

Jul 11 23:52:30 monit kernel: [   25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [   25.552462] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [   25.552475] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [   25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [   25.552498]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 11 23:52:30 monit kernel: [   25.552529]         00 35 68 41 
Jul 11 23:52:30 monit kernel: [   25.552543] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [   25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [   25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [   25.556607] ata1: EH complete
Run Code Online (Sandbox Code Playgroud)

我已经知道我需要更换硬盘驱动器(数据成本 > 硬盘驱动器成本),但我想知道我自己的知识实际上有什么问题。

是的,我们的监控服务器没有RAID,只有一个硬盘……别看我……

mgo*_*ven 17

sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Run Code Online (Sandbox Code Playgroud)

看起来驱动器有坏扇区并且无法重新分配这些(可能是因为它的备用扇区用完了)。的输出smartctl -a /dev/sda将为您提供有关驱动器状态的更多信息。


wom*_*ble 12

Lassie 在说“arf!arf arf!arf!”。这是愚蠢的,因为这与蒂米无关。这就是为什么你不从狗那里接受系统管理员的建议。

驱动器给你一个“未恢复的读取错误 - 自动重新分配失败”,这基本上意味着“我试图读取,我失败了,我试图恢复(再读几次扇区,应用一些 ECC,然后将数据移动到一个没有损坏的部门),但它没有用”。这可能意味着(正如 mgorven 所说)磁盘已经被重新分配的扇区塞满了,因为磁盘已经死了一段时间,但我也认为这可能意味着它根本无法恢复扇区(重复读取+ ECC 没能得到好看的数据块)。

无论哪种方式,是的,驱动器非常非常仙人掌。您的数据看起来也不健康。