标签: smart

如果根据 SMART 数据该磁盘是健康的，尽管如此，该磁盘突然发生故障的几率是多少？这假设故障不是由于某些无法预测的灾难性事件造成的，例如笔记本电脑掉在地板上导致驱动器磁头撞击磁盘。
如果 SMART 数据没有表明磁盘状况良好，那么磁盘在一段时间内发生故障的几率是多少？是否有可能出现误报以及这些误报有多普遍？

当然，无论如何我都会备份。我主要是好奇。

monitoring hard-drive smart

and*_*lst

lucky-day

8
推荐指数

1
解决办法

1万
查看次数

SMART 显示无法读取的扇区，btrfs 清理干净 - 哪个是正确的？

我有一对 RAID1 磁盘，格式为btrfs.

磁盘会定期进行清理，我会收到结果通知。他们已经运行了大约 2-3 年，没有出现任何问题。

然而，我最近添加smartd到我的安装中，它立即抱怨其中一个驱动器中有少量不可读的扇区：

Device: /dev/sdc [SAT], 4 Currently unreadable (pending) sectors

Run Code Online (Sandbox Code Playgroud)

我对该驱动器进行了擦洗，发现并纠正了相同数量的错误，但智能错误消息并没有消失。对同一磁盘的后续擦洗不会显示任何错误。

我不确定这些工具中哪个最准确 - 是smartd显示误报，还是btrfs缺少坏扇区，或者也许我误解了结果？

验证磁盘运行状况的最佳方法是什么？

谢谢！

storage smart btrfs

dkd*_*kd6

lucky-day

8
推荐指数

2
解决办法

1714
查看次数

SMART 警告我，但我不相信它

我有一个带有四个三星硬盘的服务器。所有驱动器都是同一型号，并且是一起购买的。驱动器为 SAMSUNG HE753LJ，固件为 1AA01113。

我收到 SMART 错误，但我觉得 smartctl 不了解他从硬盘驱动器获得的价值。

这是 SMART 测试的结果：

asgard:~# smartctl -H /dev/sdb
smartctl 版本 5.38 [i686-pc-linux-gnu] 版权所有 (C) 2002-8 Bruce Allen
主页是 http://smartmontools.sourceforge.net/

=== 开始读取智能数据部分 ===
SMART 整体健康自我评估测试结果：失败！
预计在 24 小时内出现驱动器故障。保存所有数据。
失败的属性：
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time 0x0007 001 001 011 Pre-fail Always FAILING_NOW 60340

我不相信 SMART，因为：

一年多以来，所有磁盘都将在不到 24 小时内发生故障。什么都还没炸。
维基百科说“启动时间是主轴启动的平均时间（从零 RPM 到完全运行 [毫秒]）。 ”这意味着驱动器需要大约一分钟才能唤醒？！

我想遵循 smartctl 的建议并更改这些磁盘，但我只是不相信我阅读的结果。

你怎么看待这件事？你会怎么办？

谢谢你的帮助。

hardware linux monitoring smart

Sam*_*amK

2010 02-18

7
推荐指数

3
解决办法

4770
查看次数

如何使用重新分配扇区数高的磁盘？

经过 3 年的 24x7 服务，1TB 希捷 Barracuda ES.2 企业级硬盘出现故障迹象。SMART 重新分配的扇区数很高。

维基百科文章表明，如果重新映射的扇区未使用，该驱动器仍可用于不太敏感的用途，例如阵列外的暂存存储。

A workaround which will preserve drive speed at the expense of capacity 
is to create a disk partition over the region which contains remaps and 
instruct the operating system to not use that partition.

Run Code Online (Sandbox Code Playgroud)

为了创建这样的分区，有必要获取重新映射的扇区列表。但是，操作系统看不到坏块。即badblocks返回一个空列表。

有没有办法恢复重新分配的扇区列表？

编辑：此驱动器来自阵列。我们每年都会有一些失败，把它们扔掉似乎是一种浪费。我正在考虑给盘子中更好的部分第二次机会。

这是 SMART 报告现在的样子。

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda ES.2
Device Model:     ST31000340NS
Serial Number:    **********
Firmware Version: SN05
...
ID# ATTRIBUTE_NAME          FLAG …

Run Code Online (Sandbox Code Playgroud)

hard-drive smart bad-blocks

Dmi*_*rov

2012 05-10

7
推荐指数

2
解决办法

4万
查看次数

PERC MegaRAID SMART 状态与 smartctl 不匹配 - 寻找硬盘问题的线索

我在 Dell R720xd 和 PERC H710P 上的 MegaCli 收到奇怪的 SMART 错误，RAID5 中有五个 4Tb SATA 驱动器

 /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL

Run Code Online (Sandbox Code Playgroud)

给我一些“Failure Seq Event Number”

Slot Number: 4
...
Last Predictive Failure Event Seq Number: 7309 
...
Inquiry Data:       PK2361PAGAZU8WHitachi HUS724040ALE640                 MJAOA3B0
...
Drive has flagged a S.M.A.R.T alert : Yes

Run Code Online (Sandbox Code Playgroud)

但是 smartctl 根本没有提供驱动器有什么问题的线索：

# smartctl -a -d sat+megaraid,4 /dev/sda
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-279.19.1.el6.x86_64] (local build)
...
Serial Number:    PK2361PAGAZU8W     # Note same serial, no mistake
...
SMART support is: Available - …

Run Code Online (Sandbox Code Playgroud)

smart megaraid smartctl dell-perc megacli

kuz*_*uz8

2013 07-13

7
推荐指数

0
解决办法

5721
查看次数

如何查找受重新分配扇区影响的文件？

我有一个 Western Digital RE4 1.5TB，它刚刚重新分配了 56 个扇区。

  Reallocated Sectors Count,140,193,193,OK,56,0,Enabled

Run Code Online (Sandbox Code Playgroud)

我想知道是否有可能找出哪些文件受这些重新分配的扇区影响，以及它们是否因重新分配而损坏位。

files smart bad-blocks

Nic*_*ick

lucky-day

7
推荐指数

2
解决办法

2147
查看次数

mdadm RAID5 随机读取错误。死盘？

首先是长篇故事：
我在 Debian 9 上有一个带 mdadm 的 RAID5。Raid 有 5 个磁盘，每个 4TB 大小。其中4个是HGST Deskstar NAS，后来的一个是东芝N300 NAS。

在过去的几天里，我注意到该 Raid 中出现了一些读取错误。例如，我有一个 10GB 的 rar 档案，分为多个部分。当我尝试提取时，某些部分出现 CRC 错误。如果我第二次尝试，我会在其他部分出现这些错误。Torrents 和下载后重新破解也会发生这种情况。

重新启动后，我的 BIOS 注意到 SATA 端口 3 上的 HGST 驱动器的 SMART 状态不好。smartctl 曾对我说存在 DMA CRC 错误，但声称驱动器没问题。

稍后再次重新启动，我再也看不到 smart 中的 crc 错误了。但现在我得到了这个输出

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-4-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less …

Run Code Online (Sandbox Code Playgroud)

lvm mdadm smart raid5

kev*_*inq

lucky-day

6
推荐指数

1
解决办法

499
查看次数

SMART 数据中 Total_LBA_Written 的单位

我有 3 台机器，其磁盘（实际上是 SSD）采用 RAID1，故意使用不同品牌，以防止它们因磨损而同时丢失。它们很实用。

它们的两个磁盘上的 Total_LBA_Written 数量应该大致相同。但数字有很大不同，例如 smartctl 在 Samsung SSD 850 EVO 2TB 上报告 2596016156，但在配套的 WDC WDS200T2B0A-00SM50 上报告 1237：

241  Total_LBAs_Written  0x0032  099 099 000  Old_age  Always   -  2596016156
241  Total_LBAs_Written  0x0030  253 253 ---  Old_age  Offline  -        1237

Run Code Online (Sandbox Code Playgroud)

我最好的猜测是第一个报告以 512 字节为单位，第二个以Gibibyte为单位。这可以解释比率为 2 ²¹（较小值在 1 个单位内）。

Total_LBA_Written 条目的单位是否在某处标准化？有没有系统的方法来确定？如果没有，练习什么单元？

更新，2023 年 10 月（4 年后）：该配置仍在使用（并且很好）。现在它写着：

241  Total_LBAs_Written  0x0032  099 099 000  Old_age  Always   - 219294945066
241  Total_LBAs_Written  0x0030  253 253 ---  Old_age  Offline  -       104567

Run Code Online (Sandbox Code Playgroud)

两个驱动器的值之间的比率为 2 …

hard-drive ssd smart

fgr*_*ieu

2023 10-24

6
推荐指数

1
解决办法

7193
查看次数