如何检查系统健康状况?

lof*_*ops 9 hardware software-recommendation hardware-test

我想要一份关于我的系统健康状况的报告,以便我知道我的所有硬件组件(CPU、内存、磁盘...)都按预期运行。如果报告仅列出发现的问题(如果有),则最容易阅读。有没有系统工具可以做到这一点?

相关说明:

  • 我知道磁盘实用程序可以报​​告我磁盘的 SMART 结果。我想为我的所有其他组件提供类似的东西。
  • 原始诊断工具和基准测试不适合。诊断工具会列出组件的详细信息,但不会列出它们的健康状况。基准只是有时会突出健康问题。我只对直接健康报告感兴趣。
  • 我知道在 Windows 中执行此功能的等效工具(报告硬件组件是否出现故障),但我忘记了名称 :P 我基本上想要一个等效的工具。

Win*_*nix 12

电子产品通常工作 100% 或 0%。根据您已经知道的SMART报告,机械设备(如硬盘驱动器)确实有即将发生故障的指标。

粉丝

风扇有即将发生的故障指示器,但这是基于您的听力和听力指标,例如振荡速度、轴承吱吱声等。

中央处理器

风扇退化的另一个潜在指标是 CPU 热量水平。在笔记本电脑上意味着风扇排气口堵塞或 RPM 太低。这也可能意味着 CPU / 主板需要用压缩空气清洁灰尘(不要使用含有水分的呼吸)。这也可能意味着您的 CPU 散热器需要重新安装新的导热膏。

内存

如果您的机器锁定并显示错误的内存错误,您可以按照以下说明测试您的 RAM:如何通过 linux 检查 RAM 中的错误?.

如果 RAM 检查器发现坏内存块,您可以使用以下说明将其列入黑名单:有没有办法限制内核的内存管理器仅使用 75% 的内存?

NVMe PCIe M.2 Gen 3.0 x 4(或 2)SSD

如果您有 SSD,它们的使用寿命以数万亿次写入来衡量。您的SMART实用程序已测量 SSD 寿命,但不适用于 NVMe SSD。为此,您需要nvme-cli. 要安装它,请使用:

sudo apt install nvme-cli
Run Code Online (Sandbox Code Playgroud)

接下来从 SSD 收集可用信息:

$ sudo nvme smart-log /dev/nvme0
Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning                    : 0
temperature                         : 40 C
available_spare                     : 100%
available_spare_threshold           : 10%
percentage_used                     : 0%
data_units_read                     : 12,539,332
data_units_written                  : 10,623,582
host_read_commands                  : 281,194,884
host_write_commands                 : 96,528,713
controller_busy_time                : 672
power_cycles                        : 1,677
power_on_hours                      : 687
unsafe_shutdowns                    : 105
media_errors                        : 0
num_err_log_entries                 : 279
Warning Temperature Time            : 0
Critical Composite Temperature Time : 0
Temperature Sensor 1                : 40 C
Temperature Sensor 2                : 51 C
Temperature Sensor 3                : 0 C
Temperature Sensor 4                : 0 C
Temperature Sensor 5                : 0 C
Temperature Sensor 6                : 0 C
Temperature Sensor 7                : 0 C
Temperature Sensor 8                : 0 C
Run Code Online (Sandbox Code Playgroud)

最重要的字段Percentage used显示为 0%。这不是磁盘使用百分比,而是寿命使用百分比。该驱动器是在 2017 年 10 月购买的,现在仍然0%是 2018 年 12 月。Percentage used在 2020 年 10 月达到 1%。按照这个速度,NVMe SSD 的寿命将是 300 年。当然,在那之前它会过时......

桌面上的系统监视器 conky

许多人喜欢在他们桌面的一部分上显示他们的系统状态(和健康)。我喜欢让我的 Conky 在主显示器右侧 20% 的地方运行:

Conky all.gif

笔记:单 CPU 上 97% 的 CPU 使用率是由屏幕录像机本身引起的。

要了解有关conkyCPU 使用情况的更多信息,请参阅:如何对 CPU 和 RAM(同时)进行压力测试?