标签: load-average

关于平均负载过高时 SendMail 守护程序操作的问题

我的 sendmail 服务器开始拒绝连接,因为平均负载太高(由于垃圾邮件问题已经解决)。

Error was: sendmail[13400]: rejecting connections on daemon MTA: load average: 50
Run Code Online (Sandbox Code Playgroud)

不过,我想更好地理解这种行为。

  • 这个阈值在哪里设置?
  • “平均负载”是什么意思?
  • 平均负载多久计算一次?
  • 有没有办法主动监控?或者在平均负载接近高值时发出警报?显然,sendmail 会为连接的 MTA 提供 4.0.0 类 dsn,但我正在寻找某种警报机制。

谢谢,


嗨,大家好,

当我看到它再次出现时,我想我会再撞一次。我现在看到的问题是,由于超过平均负载而排队的消息稍后不会重新发送(即使在性能恢复到可接受的水平之后。知道为什么会这样吗?

谢谢,

linux smtp sendmail dsn load-average

4
推荐指数
1
解决办法
2万
查看次数

高服务器负载无法弄清楚原因

我的服务器目前运行 CentOS 5.2,WHM 11.34。

目前,我们的平均负载为 6.43 到 12。我们托管的网站需要花费大量时间来响应和解决。 top没有显示任何异常,iftop也没有显示大量流量。

我们有很多转销商,有些不擅长编写代码,我们如何找到罪魁祸首?

vmstat 输出

vmstat
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 0  2     84  78684 154916 1021080    0    0    72   274    0   14  6  3 80 12  0
Run Code Online (Sandbox Code Playgroud)

顶部输出(按 %CPU 排序)

top - 21:44:43 up 5 days, 10:39,  3 users,  load average: 3.36, 4.18, 4.73
Tasks: 222 total,   3 running, 219 …
Run Code Online (Sandbox Code Playgroud)

high-load load-average centos5

4
推荐指数
1
解决办法
478
查看次数

用于高性能计算的 CPU 负载

在高性能计算的背景下,是否存在合理/安全的 CPU 负载水平?

我理解的意思平均负载在一般的服务器,但不知道会发生什么,建成并用于高性能计算服务器。

通常的约定是否load <= # of cores适用于这种环境?


鉴于我的系统特定详细信息,我很好奇,通常load >> # of cores每个节点:

  • 24 个物理内核,48 个虚拟内核的超线程(相对较新的硬件)
  • 平均负载:通常为 100-300

节点的正常运行时间很长,CPU 使用率/负载通常很高。很少有硬件故障,尤其是 CPU,但我不知道在给定高负载的节点的整个生命周期中会发生什么。

示例top输出:

top - 14:12:53 up 4 days,  5:45,  1 user,  load average: 313.33, 418.36, 522.87
Tasks: 501 total,   5 running, 496 sleeping,   0 stopped,   0 zombie
%Cpu(s): 33.5 us, 50.9 sy,  0.0 ni, 15.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 19650371+total, 46456320 …
Run Code Online (Sandbox Code Playgroud)

linux central-processing-unit cpu-usage high-load load-average

4
推荐指数
1
解决办法
219
查看次数

Nagios 基础:了解 check_load 图

我的数据库服务器(一个 CPU 虚拟机)由 Nagios 监控。

我没有使用 Nagios 的经验,也无法理解此图:

  • 纵轴的单位是什么?
  • 和平均值?什么是“m”?

check_load_average

load-average

3
推荐指数
1
解决办法
3935
查看次数

存储/计算历史平均负载

当我运行时uptime,我得到类似于以下的输出:

 07:50:39 up 13 days,  5:00,  1 user,  load average: 0.00, 0.02, 0.00
Run Code Online (Sandbox Code Playgroud)

除了uptime每 X 分钟运行一次之外,有没有办法获得更多的历史平均负载?

我希望能够绘制过去一周、一个月等的负载平均值。

也许我找错了地方?

更新
我不能选择之间collectd(@戴维spillet)或穆宁(@ icapan) -所以现在,我会两者(在不同机器上)使用。

谢谢 :)

linux performance performance-monitoring uptime load-average

2
推荐指数
2
解决办法
3985
查看次数

CPU 和内存利用率低。这是否意味着服务器健康?

在一个相当繁忙的RHEL6服务器上,我平均会注意到以下迹象

CPU Usage   : 2%.
CPU Load AVG: 0.4,0.2,0.1
Memory Usage: 1.3 out of 16 GB
Run Code Online (Sandbox Code Playgroud)

这是该服务器的 CPU

Intel(R) Xeon(R) CPU E31240 @ 3.30GHz, 8 cores
Run Code Online (Sandbox Code Playgroud)

这是否意味着服务器运行状况良好且负载不高?我会这么认为,但由于即使交通相当繁忙,这始终处于低端,我只是想知道我是否可以忽略某些东西?

并不是说我希望服务器陷入困境,我们努力确保我们使用最少的资源并尽可能有效地提供网页服务,但我只是想确保有一天我不会感到意外。

linux cpu-usage load-average rhel6

2
推荐指数
1
解决办法
818
查看次数

ZFS:arc_prune 使用 100% CPU,平均负载较高

我有一个4 磁盘存储服务器,带有两个 ZFS raidz1 池,昨晚它突然开始以100% CPU运行,平均负载很高

root@stg1:~# w
 07:05:48 up 296 days, 17:19,  1 user,  load average: 27.06, 25.49, 24.74
USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT
Run Code Online (Sandbox Code Playgroud)

我有很多 arc_prune 进程,它们占用了大量 CPU:

arc_prune 使用大量 CPU

我的zfs_arc_max大小是默认值(应该是系统 RAM 的 50%),实际上它使用的内存不超过 16 GB:

------------------------------------------------------------------------
ZFS Subsystem Report                Thu Aug 27 07:09:34 2020
ARC Summary: (HEALTHY)
    Memory Throttle Count:          0

ARC Misc:
    Deleted:                567.62m
    Mutex Misses:               10.46m
    Evict Skips:                10.46m

ARC Size:               102.63% 15.99   GiB
    Target …
Run Code Online (Sandbox Code Playgroud)

zfs cpu-usage load-average

2
推荐指数
1
解决办法
4144
查看次数

如何计算我的系统的最大系统负载平均值?

我有一种情况,我想监控我的服务器负载,为此我试图设置一个阈值,但我不确定我的服务器可以达到的最大值是多少。

这是当前的系统负载平均值:

0.23, 1.52, 2.69

sudo nproc --all 返回值作为 6

这是 CPU 的详细信息:

在此处输入图片说明

这是否意味着我的服务器可以达到高达6 的系统平均负载

linux 64-bit load-average ubuntu-14.04

1
推荐指数
1
解决办法
1万
查看次数

有哪些工具可以从 linux 上的非常大的平均负载中自动恢复?

在过去一两年中,由于许多不同的原因,我遇到了运行进程的服务器的问题,这些进程往往会导致非常重的平均负载。

在这些情况下,我经常可以 ping 服务器,但它对任何其他连接都变得非常无响应,而且我经常不得不重启机器。

造成这种巨大负载的一个原因包括虚拟服务器上配置不当的 Apache 进程,该进程允许分配给它的硬件有太多并发连接,而​​且我今晚似乎在另一台服务器上运行了一些程序,这些程序似乎做了类似的事情。

我很好奇的是 linux 有工具可以检测非常大的平均负载并以某种方式中断这些进程,从而允许机器从中恢复?

如果我的措辞不好,我很抱歉,我很欣赏它是非常开放的。

linux load-average

0
推荐指数
1
解决办法
217
查看次数

du,查找和平均负载

我有一个复杂的目录结构,里面有很多小文件。喜欢:

/opt/data/1000/45/32/2009/10/15/76543.zip
Run Code Online (Sandbox Code Playgroud)

当我在这个目录 (/opt/data/) 上启动du或 时find,我的服务器负载增加了很多 (0,5 --> 25) 并且我的系统不再响应。

我可以“减慢” du/find 命令的执行速度以保持系统可访问吗?我不在乎命令是否需要 3 天才能运行 :-) 我已经尝试过但nice -n 19没有成功......

谢谢 !

linux find load-average

0
推荐指数
1
解决办法
484
查看次数