有没有办法通过 SNMP 共享 SMART 数据?我希望能够制作它的仙人掌图并将其连接到 Nagios。
我想要做的是能够获得有关通过 SNMP 访问的硬盘的一些统计信息。这将允许我根据时间绘制 $SMART_MEASUREMENT_VALUE 的数量。
我已经在服务器上安装了 SMARTd/smartmontools,我想通过 Nagios 对其进行监控。但是在 Monitoring Exchange 上,我看到了几个插件
哪些是好的?你会推荐什么?
nagios 服务器和带有 smartd/harddisks 的服务器都是 Ubuntu 服务器。
根据SMART数据,你可以判断一个磁盘的健康状况,至少是这个想法。例如,如果我sudo smartctl -H /dev/sda在我的 ArchLinux 笔记本电脑上运行,它会说硬盘驱动器通过了自检,并且基于此它应该是“健康的”。
我的问题是这些信息有多可靠,或者更具体地说:
当然,无论如何我都会备份。我主要是好奇。
我有一对 RAID1 磁盘,格式为btrfs.
磁盘会定期进行清理,我会收到结果通知。他们已经运行了大约 2-3 年,没有出现任何问题。
然而,我最近添加smartd到我的安装中,它立即抱怨其中一个驱动器中有少量不可读的扇区:
Device: /dev/sdc [SAT], 4 Currently unreadable (pending) sectors
Run Code Online (Sandbox Code Playgroud)
我对该驱动器进行了擦洗,发现并纠正了相同数量的错误,但智能错误消息并没有消失。对同一磁盘的后续擦洗不会显示任何错误。
我不确定这些工具中哪个最准确 - 是smartd显示误报,还是btrfs缺少坏扇区,或者也许我误解了结果?
验证磁盘运行状况的最佳方法是什么?
谢谢!
我有一个带有四个三星硬盘的服务器。所有驱动器都是同一型号,并且是一起购买的。驱动器为 SAMSUNG HE753LJ,固件为 1AA01113。
我收到 SMART 错误,但我觉得 smartctl 不了解他从硬盘驱动器获得的价值。
这是 SMART 测试的结果:
asgard:~# smartctl -H /dev/sdb smartctl 版本 5.38 [i686-pc-linux-gnu] 版权所有 (C) 2002-8 Bruce Allen 主页是 http://smartmontools.sourceforge.net/ === 开始读取智能数据部分 === SMART 整体健康自我评估测试结果:失败! 预计在 24 小时内出现驱动器故障。保存所有数据。 失败的属性: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0007 001 001 011 Pre-fail Always FAILING_NOW 60340
我不相信 SMART,因为:
我想遵循 smartctl 的建议并更改这些磁盘,但我只是不相信我阅读的结果。
你怎么看待这件事?你会怎么办?
谢谢你的帮助。
经过 3 年的 24x7 服务,1TB 希捷 Barracuda ES.2 企业级硬盘出现故障迹象。SMART 重新分配的扇区数很高。
维基百科文章表明,如果重新映射的扇区未使用,该驱动器仍可用于不太敏感的用途,例如阵列外的暂存存储。
A workaround which will preserve drive speed at the expense of capacity
is to create a disk partition over the region which contains remaps and
instruct the operating system to not use that partition.
Run Code Online (Sandbox Code Playgroud)
为了创建这样的分区,有必要获取重新映射的扇区列表。但是,操作系统看不到坏块。即badblocks返回一个空列表。
有没有办法恢复重新分配的扇区列表?
编辑:此驱动器来自阵列。我们每年都会有一些失败,把它们扔掉似乎是一种浪费。我正在考虑给盘子中更好的部分第二次机会。
这是 SMART 报告现在的样子。
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda ES.2
Device Model: ST31000340NS
Serial Number: **********
Firmware Version: SN05
...
ID# ATTRIBUTE_NAME FLAG …Run Code Online (Sandbox Code Playgroud) 我在 Dell R720xd 和 PERC H710P 上的 MegaCli 收到奇怪的 SMART 错误,RAID5 中有五个 4Tb SATA 驱动器
/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL
Run Code Online (Sandbox Code Playgroud)
给我一些“Failure Seq Event Number”
Slot Number: 4
...
Last Predictive Failure Event Seq Number: 7309
...
Inquiry Data: PK2361PAGAZU8WHitachi HUS724040ALE640 MJAOA3B0
...
Drive has flagged a S.M.A.R.T alert : Yes
Run Code Online (Sandbox Code Playgroud)
但是 smartctl 根本没有提供驱动器有什么问题的线索:
# smartctl -a -d sat+megaraid,4 /dev/sda
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-279.19.1.el6.x86_64] (local build)
...
Serial Number: PK2361PAGAZU8W # Note same serial, no mistake
...
SMART support is: Available - …Run Code Online (Sandbox Code Playgroud) 我有一个 Western Digital RE4 1.5TB,它刚刚重新分配了 56 个扇区。
Reallocated Sectors Count,140,193,193,OK,56,0,Enabled
Run Code Online (Sandbox Code Playgroud)
我想知道是否有可能找出哪些文件受这些重新分配的扇区影响,以及它们是否因重新分配而损坏位。
首先是长篇故事:
我在 Debian 9 上有一个带 mdadm 的 RAID5。Raid 有 5 个磁盘,每个 4TB 大小。其中4个是HGST Deskstar NAS,后来的一个是东芝N300 NAS。
在过去的几天里,我注意到该 Raid 中出现了一些读取错误。例如,我有一个 10GB 的 rar 档案,分为多个部分。当我尝试提取时,某些部分出现 CRC 错误。如果我第二次尝试,我会在其他部分出现这些错误。Torrents 和下载后重新破解也会发生这种情况。
重新启动后,我的 BIOS 注意到 SATA 端口 3 上的 HGST 驱动器的 SMART 状态不好。smartctl 曾对我说存在 DMA CRC 错误,但声称驱动器没问题。
稍后再次重新启动,我再也看不到 smart 中的 crc 错误了。但现在我得到了这个输出
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-4-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less …Run Code Online (Sandbox Code Playgroud) 我有 3 台机器,其磁盘(实际上是 SSD)采用 RAID1,故意使用不同品牌,以防止它们因磨损而同时丢失。它们很实用。
它们的两个磁盘上的 Total_LBA_Written 数量应该大致相同。但数字有很大不同,例如 smartctl 在 Samsung SSD 850 EVO 2TB 上报告 2596016156,但在配套的 WDC WDS200T2B0A-00SM50 上报告 1237:
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 2596016156
241 Total_LBAs_Written 0x0030 253 253 --- Old_age Offline - 1237
Run Code Online (Sandbox Code Playgroud)
我最好的猜测是第一个报告以 512 字节为单位,第二个以Gibibyte为单位。这可以解释比率为 2 21(较小值在 1 个单位内)。
Total_LBA_Written 条目的单位是否在某处标准化?有没有系统的方法来确定?如果没有,练习什么单元?
更新,2023 年 10 月(4 年后):该配置仍在使用(并且很好)。现在它写着:
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 219294945066
241 Total_LBAs_Written 0x0030 253 253 --- Old_age Offline - 104567
Run Code Online (Sandbox Code Playgroud)
两个驱动器的值之间的比率为 2 …