穆宁的智能插件过去一直报错因为退出码

在 CentOS 6 上运行 smartmontools-5.43-1.el6。查看源代码似乎需要从 ioctlSG_GET_SCSI_ID或SCSI_IOCTL_GET_BUS_NUMBER在命名设备节点上获取的总线编号 / host_no 。这是否与 MegaCLI 输出中使用的“适配器编号”相同？

实际上，就我而言，我可能可以将其硬编码到 /dev/sda，但我想知道是否有更好的方法。

smart megaraid smartctl megacli

lmz*_*lmz

lucky-day

6
推荐指数

2
解决办法

2万
查看次数

智能长测试 - 对繁忙服务器的性能影响是什么？

我有一台繁忙的服务器，设置了 RAID 1。该应用程序（在 PHP 中运行）对数据库 (MariaDB) 的读/写非常密集。

cronjobsmartctl每天运行简短的测试并检查smartctl -H和的输出mdadm -D。

有时我想运行长时间测试，但我担心它对性能的影响。我读到可能需要几个小时才能完成。如果它导致服务器性能在运行时下降，我的用户将受到 5 个多小时的影响。

所以，这里有几个问题：

1) 长时间的智能测试通常会影响对用户来说很重要的性能吗？

2）既然我有RAID 1并且做了短测试，那么长测试还需要吗？

3）如果我发现长时间测试对服务器性能造成了问题，是否有办法停止它？

raid hard-drive smart raid1 smartctl

Nun*_*uno

lucky-day

6
推荐指数

1
解决办法

3414
查看次数

SMART - 了解离线数据收集

我在 Synology NAS 中有两个 Kingston A400 120GB SSD 作为缓存，它似乎不支持自动离线数据收集。

# smartctl -d sat -c /dev/sdc | grep -i "Auto Offline data collection" 
Auto Offline Data Collection: Disabled.  
No Auto Offline data collection support.
# smartctl -d sat -o on /dev/sdc
SMART Automatic Timers not supported
SMART Enable Automatic Offline failed: scsi error aborted command

Run Code Online (Sandbox Code Playgroud)

然而，当我检查标记为“离线”的属性时，即使我不运行手动离线数据收集或自测试，RAW_VALUE其中之一也会不断变化（具体而言）。246 Total_Erase_Count我检查了 smartd 是否正在运行以防万一，但事实并非如此。另一个相同的 SSD 也会发生同样的情况。

问题：

离线数据采集到底更新了什么？它是否只更新属性表中的 VALUE/WORST/THRESH 列？
短自检或长自检是否会更新 SMART 属性数据？

输出smartctl -a：

=== START OF INFORMATION SECTION …

Run Code Online (Sandbox Code Playgroud)

ssd smart synology

Ban*_*aio

2019 04-12

6
推荐指数

1
解决办法

4431
查看次数

了解 Synology 1812+ 设备的 SMART 值

我有一个 Synology 1812+ NAS，其中有 8 个 3TB 驱动器配置为 RAID 5。它运行 DSM 4.1。购买它是为了使用 Time Machine 替换 USB 驱动器、整合存储和短期 OS X 备份。设备和驱动器只有 2 个月大。

每隔一周我就开始从两个驱动器收到 IO 错误。日志有以下错误：

Read error at internal disk [3] sector 2586312968.

Run Code Online (Sandbox Code Playgroud)

后来

Bad sector at md2 disk3 sector 250049936 has been corrected.

Run Code Online (Sandbox Code Playgroud)

扇区永远不匹配。建议在驱动器上运行扩展的 SMART 测试。我做到了，这是我得到的价值观：

在此处输入图片说明

然后，我对没有收到任何投诉的驱动器之一进行了扩展扩展 SMART 测试，以下是我得到的值：

在此处输入图片说明

这些值看起来非常相似。我不清楚是否有问题，如果没有，如果 SMART 测试没有发现任何真正的问题，它的意义何在？然后我应该如何解释这些结果，我应该什么时候知道更换硬盘的时间？

storage network-attached-storage smart drive-failure synology

blo*_*aak

2013 01-02

5
推荐指数

1
解决办法

2万
查看次数

Seagate Backup Plus 4TB 硬盘上的 SMART（智能）属性 190 失败

我正在使用通过 USB 连接到 Linux 机器的 Seagate Backup Plus 4TB 驱动器。驱动器型号为 ST4000DX000-1CL160。

检查 SMART 属性时，我得到：

    $ sudo smartctl -a -d sat /dev/sdb
    smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-37-generic] (local build)
    Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

    === START OF INFORMATION SECTION ===
    Device Model:     ST4000DX000-1CL160
    Serial Number:    Z1Z046LE
    LU WWN Device Id: 5 000c50 04ec317ca
    Firmware Version: CC44
    User Capacity:    4.000.787.030.016 bytes [4,00 TB]
    Sector Size:      512 bytes logical/physical
    Device is:        Not in smartctl database [for details use: -P showall]
    ATA …

Run Code Online (Sandbox Code Playgroud)

smart smartmontools

mgd*_*mgd

2013 02-16

5
推荐指数

2
解决办法

1万
查看次数

通过所有诊断后确认磁盘已损坏

我有一个磁盘可能损坏的系统，但磁盘通过了各种诊断。我一直无法确认磁盘是否损坏。我有哪些选择？

我可以只更换磁盘，但因为这种情况与我遇到的另一个更严重的情况非常相似（长话短说），我想实际做出正确的诊断，而不是随机装箱硬件。

问题和历史是这样的：

我有一台 Debian Linux PC (500 MHz P3) 作为路由器、nagios 和 munin。
它每隔几周就崩溃一次。无法获得日志或 dmesg（因为它是一个旧的 Compaq，只有在您将其配置为无键盘时才能启动，因此一旦启动就无法连接键盘）。
当时，我只是用另一台康柏（P4 2.4 GHz）更换了计算机，因为我认为硬件有问题。但是，它仍然每隔几周崩溃一次。
不同的是，在这台计算机上，我仍然可以通过 SSH 进入它。它在 hda 上给出了各种错误。

我想确认磁盘坏了，但我所做的一切都没有证实这一点：

SMART 错误日志显示没有错误。通常当磁盘开始运行时，SMART my pass，但它仍然在错误日志中记录读取错误。
SMART 自检 ( smartctl -t long /dev/sda) 无错误完成。
重新分配的扇区数（一个指示参数）在其整个生命周期中一直是 31，即使磁盘多年前仍在我的台式机中使用，现在仍然如此。这个数字从未改变。
dd if=/dev/sda of=/dev/null bs=4096 以绚丽的色彩传递。

我还能做些什么来评估驱动器的健康状况？

同样，这不是要让这个路由器再次完全正常运行，这是一个磁盘取证问题，因为碰巧我有另一台服务器可能有同样的问题，知道这个问题的答案可能会对我有很大帮助。

为了记录，以下是日志等。

这是smartctl -a输出：

smartctl 5.40 2010-07-12 r3124 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.7 and 7200.7 Plus …

Run Code Online (Sandbox Code Playgroud)

hard-drive smart

Hal*_*aar

lucky-day

5
推荐指数

1
解决办法

3474
查看次数

HP Proliant G6 报告 SSD 驱动器故障 - 监控的替代策略？

我想得到您对几天前我遇到的一个有争议的情况的反馈。我的任务是使用 HP Proliant G6 进行开发，并在 RAID1 配置中使用 2 个新的（不到 2 个月，以前从未使用过）非 HP SSD。它们用于密集型开发任务（每天写入约 500GB）；RAID5 中也有常规 HDD，但我们在这里讨论 RAID1 阵列。

三星SSD 840 PRO系列
浦科特 PX-256M5Pro

两者的 smartctl 输出均可在此处获得：https://gist.github.com/anonymous/cf8a5208a7315440f796

过去的相关问题

Plextor 驱动器一直受到报告的过热状况的影响，我认为这是因为它不是原装部件

我曾经见过一次服务器偶尔重新启动后重建 RAID1，但无法解释其原因。

失败事件

几天前，Plextor 磁盘被报告为简单的“故障”状态： physicaldrive 1I:1:1 (port 1I:box 1:bay 1, Solid State SATA, 256.0 GB, Failed)

假阳性？

因此，我拔掉了它，检查了 SMART 输出并运行了完整的测试（请参阅上面的 smartctl 输出）。测试通过了，更糟糕的是，将驱动器放回原处可提供功能完美的 RAID1 阵列。

这很尴尬。

替代监控？

我不知道如何让 P410i 告诉我“失败”状态的具体原因是什么（我认为不可能），并且我知道这些是非原装 HP 部件（从而使我的付费 HP 支持失效），但是对于这个非关键任务服务器，我想看看是否仍然可以继续使用非惠普磁盘，并且仍然对其健康状态进行某种监控。

你有什么意见？我有 3 个问题：

仅当与原装部件一起使用时，HP 控制器监控状态才可信吗？（这很容易）
这些（完全非高质量）SSD 客观上状况良好吗？
我应该对 SMART 测试的结果给予 100% 的信任吗？

提前致谢

monitoring ssd smart hp hp-proliant

Dei*_*m0s

lucky-day

5
推荐指数

1
解决办法

2050
查看次数

NVMe 健康测试

在我拥有的带有 HDD 或 SSD 的服务器上，我有一个定期运行的 cron：

/usr/sbin/smartctl --test=short/long /dev/sd1

Run Code Online (Sandbox Code Playgroud)

（对于每个磁盘）

当它运行时，它只是查看的输出/usr/sbin/smartctl -c /dev/sd1，循环直到它不再包含：

[0-9]+% of test remaining.

Run Code Online (Sandbox Code Playgroud)

然后检查它是否完成且没有错误：

(   0)  The previous self-test routine completed

Run Code Online (Sandbox Code Playgroud)

smartctl但是，从版本 7.0 开始，似乎尚不支持 NVMe 测试：https : //www.smartmontools.org/wiki/NVMe_Support

它确实这么说

smartd 守护进程跟踪运行状况 (-H)、错误计数 (-l error) 和温度 (-W DIFF,INFO,CRIT)

但实际运行测试的是什么？我不确定和的输出是否会-H更新-l，除非我们运行短/长测试？

我还阅读了有关的内容nvme-cli，但我似乎没有找到用它在磁盘上运行运行状况测试的方法。

有任何想法吗？

这里使用 CentOS 7。

centos smart healthcheck smartctl nvme

Nun*_*uno

2021 11-24

5
推荐指数

1
解决办法

3291
查看次数

标签统计

smart ×10

hard-drive ×3

smartctl ×3

ssd ×2

synology ×2

centos ×1

drive-failure ×1

healthcheck ×1

hp ×1

hp-proliant ×1

megacli ×1

megaraid ×1

monitoring ×1

munin ×1

network-attached-storage ×1

nvme ×1

raid ×1

raid1 ×1

smartmontools ×1

storage ×1

标签: smart

过去的相关问题

失败事件

假阳性？

替代监控？

标签 统计

标签统计