标签: smart

有没有办法通过 SNMP 共享 SMART 数据?

有没有办法通过 SNMP 共享 SMART 数据?我希望能够制作它的仙人掌图并将其连接到 Nagios。

我想要做的是能够获得有关通过 SNMP 访问的硬盘的一些统计信息。这将允许我根据时间绘制 $SMART_MEASUREMENT_VALUE 的数量。

monitoring smart nagios snmp cacti

8
推荐指数
1
解决办法
7482
查看次数

适用于 SMARTd / smartmontools 的最佳 Nagios 插件?

我已经在服务器上安装了 SMARTd/smartmontools,我想通过 Nagios 对其进行监控。但是在 Monitoring Exchange 上,我看到了几个插件

哪些是好的?你会推荐什么?

nagios 服务器和带有 smartd/harddisks 的服务器都是 Ubuntu 服务器。

monitoring hard-drive smart nagios

8
推荐指数
1
解决办法
1万
查看次数

HDD SMART 数据的可靠性如何?

根据SMART数据,你可以判断一个磁盘的健康状况,至少是这个想法。例如,如果我sudo smartctl -H /dev/sda在我的 ArchLinux 笔记本电脑上运行,它会说硬盘驱动器通过了自检,并且基于此它应该是“健康的”。

我的问题是这些信息有多可靠,或者更具体地说:

  • 如果根据 SMART 数据该磁盘是健康的,尽管如此,该磁盘突然发生故障的几率是多少?这假设故障不是由于某些无法预测的灾难性事件造成的,例如笔记本电脑掉在地板上导致驱动器磁头撞击磁盘。
  • 如果 SMART 数据没有表明磁盘状况良好,那么磁盘在一段时间内发生故障的几率是多少?是否有可能出现误报以及这些误报有多普遍?

当然,无论如何我都会备份。我主要是好奇。

monitoring hard-drive smart

8
推荐指数
1
解决办法
1万
查看次数

SMART 显示无法读取的扇区,btrfs 清理干净 - 哪个是正确的?

我有一对 RAID1 磁盘,格式为btrfs.

磁盘会定期进行清理,我会收到结果通知。他们已经运行了大约 2-3 年,没有出现任何问题。

然而,我最近添加smartd到我的安装中,它立即抱怨其中一个驱动器中有少量不可读的扇区:

Device: /dev/sdc [SAT], 4 Currently unreadable (pending) sectors
Run Code Online (Sandbox Code Playgroud)

我对该驱动器进行了擦洗,发现并纠正了相同数量的错误,但智能错误消息并没有消失。对同一磁盘的后续擦洗不会显示任何错误。

我不确定这些工具中哪个最准确 - 是smartd显示误报,还是btrfs缺少坏扇区,或者也许我误解了结果?

验证磁盘运行状况的最佳方法是什么?

谢谢!

storage smart btrfs

8
推荐指数
2
解决办法
1714
查看次数

SMART 警告我,但我不相信它

我有一个带有四个三星硬盘的服务器。所有驱动器都是同一型号,并且是一起购买的。驱动器为 SAMSUNG HE753LJ,固件为 1AA01113。

我收到 SMART 错误,但我觉得 smartctl 不了解他从硬盘驱动器获得的价值。

这是 SMART 测试的结果:

asgard:~# smartctl -H /dev/sdb
smartctl 版本 5.38 [i686-pc-linux-gnu] 版权所有 (C) 2002-8 Bruce Allen
主页是 http://smartmontools.sourceforge.net/

=== 开始读取智能数据部分 ===
SMART 整体健康自我评估测试结果:失败!
预计在 24 小时内出现驱动器故障。保存所有数据。
失败的属性:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time 0x0007 001 001 011 Pre-fail Always FAILING_NOW 60340

我不相信 SMART,因为:

  • 一年多以来,所有磁盘都将在不到 24 小时内发生故障。什么都还没炸。
  • 维基百科说“启动时间是主轴启动的平均时间(从零 RPM 到完全运行 [毫秒])。 ”这意味着驱动器需要大约一分钟才能唤醒?!

我想遵循 smartctl 的建议并更改这些磁盘,但我只是不相信我阅读的结果。

你怎么看待这件事?你会怎么办?

谢谢你的帮助。

hardware linux monitoring smart

7
推荐指数
3
解决办法
4770
查看次数

如何使用重新分配扇区数高的磁盘?

经过 3 年的 24x7 服务,1TB 希捷 Barracuda ES.2 企业级硬盘出现故障迹象。SMART 重新分配的扇区数很高。

维基百科文章表明,如果重新映射的扇区未使用,该驱动器仍可用于不太敏感的用途,例如阵列外的暂存存储。

A workaround which will preserve drive speed at the expense of capacity 
is to create a disk partition over the region which contains remaps and 
instruct the operating system to not use that partition.
Run Code Online (Sandbox Code Playgroud)

为了创建这样的分区,有必要获取重新映射的扇区列表。但是,操作系统看不到坏块。即badblocks返回一个空列表。

有没有办法恢复重新分配的扇区列表?

编辑:此驱动器来自阵列。我们每年都会有一些失败,把它们扔掉似乎是一种浪费。我正在考虑给盘子中更好的部分第二次机会。

这是 SMART 报告现在的样子。

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda ES.2
Device Model:     ST31000340NS
Serial Number:    **********
Firmware Version: SN05
...
ID# ATTRIBUTE_NAME          FLAG …
Run Code Online (Sandbox Code Playgroud)

hard-drive smart bad-blocks

7
推荐指数
2
解决办法
4万
查看次数

PERC MegaRAID SMART 状态与 smartctl 不匹配 - 寻找硬盘问题的线索

我在 Dell R720xd 和 PERC H710P 上的 MegaCli 收到奇怪的 SMART 错误,RAID5 中有五个 4Tb SATA 驱动器

 /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL
Run Code Online (Sandbox Code Playgroud)

给我一些“Failure Seq Event Number”

Slot Number: 4
...
Last Predictive Failure Event Seq Number: 7309 
...
Inquiry Data:       PK2361PAGAZU8WHitachi HUS724040ALE640                 MJAOA3B0
...
Drive has flagged a S.M.A.R.T alert : Yes
Run Code Online (Sandbox Code Playgroud)

但是 smartctl 根本没有提供驱动器有什么问题的线索:

# smartctl -a -d sat+megaraid,4 /dev/sda
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-279.19.1.el6.x86_64] (local build)
...
Serial Number:    PK2361PAGAZU8W     # Note same serial, no mistake
...
SMART support is: Available - …
Run Code Online (Sandbox Code Playgroud)

smart megaraid smartctl dell-perc megacli

7
推荐指数
0
解决办法
5721
查看次数

如何查找受重新分配扇区影响的文件?

我有一个 Western Digital RE4 1.5TB,它刚刚重新分配了 56 个扇区。

  Reallocated Sectors Count,140,193,193,OK,56,0,Enabled
Run Code Online (Sandbox Code Playgroud)

我想知道是否有可能找出哪些文件受这些重新分配的扇区影响,以及它们是否因重新分配而损坏位。

files smart bad-blocks

7
推荐指数
2
解决办法
2147
查看次数

mdadm RAID5 随机读取错误。死盘?

首先是长篇故事:
我在 Debian 9 上有一个带 mdadm 的 RAID5。Raid 有 5 个磁盘,每个 4TB 大小。其中4个是HGST Deskstar NAS,后来的一个是东芝N300 NAS。

在过去的几天里,我注意到该 Raid 中出现了一些读取错误。例如,我有一个 10GB 的 rar 档案,分为多个部分。当我尝试提取时,某些部分出现 CRC 错误。如果我第二次尝试,我会在其他部分出现这些错误。Torrents 和下载后重新破解也会发生这种情况。

重新启动后,我的 BIOS 注意到 SATA 端口 3 上的 HGST 驱动器的 SMART 状态不好。smartctl 曾对我说存在 DMA CRC 错误,但声称驱动器没问题。

稍后再次重新启动,我再也看不到 smart 中的 crc 错误了。但现在我得到了这个输出

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-4-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less …
Run Code Online (Sandbox Code Playgroud)

lvm mdadm smart raid5

6
推荐指数
1
解决办法
499
查看次数

SMART 数据中 Total_LBA_Written 的单位

我有 3 台机器,其磁盘(实际上是 SSD)采用 RAID1,故意使用不同品牌,以防止它们因磨损而同时丢失。它们很实用。

它们的两个磁盘上的 Total_LBA_Written 数量应该大致相同。但数字有很大不同,例如 smartctl 在 Samsung SSD 850 EVO 2TB 上报告 2596016156,但在配套的 WDC WDS200T2B0A-00SM50 上报告 1237:

241  Total_LBAs_Written  0x0032  099 099 000  Old_age  Always   -  2596016156
241  Total_LBAs_Written  0x0030  253 253 ---  Old_age  Offline  -        1237
Run Code Online (Sandbox Code Playgroud)

我最好的猜测是第一个报告以 512 字节为单位,第二个以Gibibyte为单位。这可以解释比率为 2 21(较小值在 1 个单位内)。

Total_LBA_Written 条目的单位是否在某处标准化?有没有系统的方法来确定?如果没有,练习什么单元?

更新,2023 年 10 月(4 年后):该配置仍在使用(并且很好)。现在它写着:

241  Total_LBAs_Written  0x0032  099 099 000  Old_age  Always   - 219294945066
241  Total_LBAs_Written  0x0030  253 253 ---  Old_age  Offline  -       104567
Run Code Online (Sandbox Code Playgroud)

两个驱动器的值之间的比率为 2 …

hard-drive ssd smart

6
推荐指数
1
解决办法
7193
查看次数