我的 sendmail 服务器开始拒绝连接,因为平均负载太高(由于垃圾邮件问题已经解决)。
Error was: sendmail[13400]: rejecting connections on daemon MTA: load average: 50
Run Code Online (Sandbox Code Playgroud)
不过,我想更好地理解这种行为。
谢谢,
米
嗨,大家好,
当我看到它再次出现时,我想我会再撞一次。我现在看到的问题是,由于超过平均负载而排队的消息稍后不会重新发送(即使在性能恢复到可接受的水平之后。知道为什么会这样吗?
谢谢,
米
我的服务器目前运行 CentOS 5.2,WHM 11.34。
目前,我们的平均负载为 6.43 到 12。我们托管的网站需要花费大量时间来响应和解决。 top没有显示任何异常,iftop也没有显示大量流量。
我们有很多转销商,有些不擅长编写代码,我们如何找到罪魁祸首?
vmstat 输出:
vmstat
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r b swpd free buff cache si so bi bo in cs us sy id wa st
0 2 84 78684 154916 1021080 0 0 72 274 0 14 6 3 80 12 0
Run Code Online (Sandbox Code Playgroud)
顶部输出(按 %CPU 排序)
top - 21:44:43 up 5 days, 10:39, 3 users, load average: 3.36, 4.18, 4.73
Tasks: 222 total, 3 running, 219 …Run Code Online (Sandbox Code Playgroud) 在高性能计算的背景下,是否存在合理/安全的 CPU 负载水平?
我理解的意思的平均负载在一般的服务器,但不知道会发生什么,建成并用于高性能计算服务器。
通常的约定是否load <= # of cores适用于这种环境?
鉴于我的系统特定详细信息,我很好奇,通常load >> # of cores每个节点:
节点的正常运行时间很长,CPU 使用率/负载通常很高。很少有硬件故障,尤其是 CPU,但我不知道在给定高负载的节点的整个生命周期中会发生什么。
示例top输出:
top - 14:12:53 up 4 days, 5:45, 1 user, load average: 313.33, 418.36, 522.87
Tasks: 501 total, 5 running, 496 sleeping, 0 stopped, 0 zombie
%Cpu(s): 33.5 us, 50.9 sy, 0.0 ni, 15.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 19650371+total, 46456320 …Run Code Online (Sandbox Code Playgroud) linux central-processing-unit cpu-usage high-load load-average
我的数据库服务器(一个 CPU 虚拟机)由 Nagios 监控。
我没有使用 Nagios 的经验,也无法理解此图:

当我运行时uptime,我得到类似于以下的输出:
07:50:39 up 13 days, 5:00, 1 user, load average: 0.00, 0.02, 0.00
Run Code Online (Sandbox Code Playgroud)
除了uptime每 X 分钟运行一次之外,有没有办法获得更多的历史平均负载?
我希望能够绘制过去一周、一个月等的负载平均值。
也许我找错了地方?
更新
我不能选择之间collectd(@戴维spillet)或穆宁(@ icapan) -所以现在,我会两者(在不同机器上)使用。
谢谢 :)
linux performance performance-monitoring uptime load-average
在一个相当繁忙的RHEL6服务器上,我平均会注意到以下迹象
CPU Usage : 2%.
CPU Load AVG: 0.4,0.2,0.1
Memory Usage: 1.3 out of 16 GB
Run Code Online (Sandbox Code Playgroud)
这是该服务器的 CPU
Intel(R) Xeon(R) CPU E31240 @ 3.30GHz, 8 cores
Run Code Online (Sandbox Code Playgroud)
这是否意味着服务器运行状况良好且负载不高?我会这么认为,但由于即使交通相当繁忙,这始终处于低端,我只是想知道我是否可以忽略某些东西?
并不是说我希望服务器陷入困境,我们努力确保我们使用最少的资源并尽可能有效地提供网页服务,但我只是想确保有一天我不会感到意外。
我有一个4 磁盘存储服务器,带有两个 ZFS raidz1 池,昨晚它突然开始以100% CPU运行,平均负载很高:
root@stg1:~# w
07:05:48 up 296 days, 17:19, 1 user, load average: 27.06, 25.49, 24.74
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
Run Code Online (Sandbox Code Playgroud)
我有很多 arc_prune 进程,它们占用了大量 CPU:
我的zfs_arc_max大小是默认值(应该是系统 RAM 的 50%),实际上它使用的内存不超过 16 GB:
------------------------------------------------------------------------
ZFS Subsystem Report Thu Aug 27 07:09:34 2020
ARC Summary: (HEALTHY)
Memory Throttle Count: 0
ARC Misc:
Deleted: 567.62m
Mutex Misses: 10.46m
Evict Skips: 10.46m
ARC Size: 102.63% 15.99 GiB
Target …Run Code Online (Sandbox Code Playgroud) 我有一种情况,我想监控我的服务器负载,为此我试图设置一个阈值,但我不确定我的服务器可以达到的最大值是多少。
这是当前的系统负载平均值:
0.23, 1.52, 2.69
sudo nproc --all 返回值作为 6
这是 CPU 的详细信息:
这是否意味着我的服务器可以达到高达6 的系统平均负载?
在过去一两年中,由于许多不同的原因,我遇到了运行进程的服务器的问题,这些进程往往会导致非常重的平均负载。
在这些情况下,我经常可以 ping 服务器,但它对任何其他连接都变得非常无响应,而且我经常不得不重启机器。
造成这种巨大负载的一个原因包括虚拟服务器上配置不当的 Apache 进程,该进程允许分配给它的硬件有太多并发连接,而且我今晚似乎在另一台服务器上运行了一些程序,这些程序似乎做了类似的事情。
我很好奇的是 linux 有工具可以检测非常大的平均负载并以某种方式中断这些进程,从而允许机器从中恢复?
如果我的措辞不好,我很抱歉,我很欣赏它是非常开放的。
我有一个复杂的目录结构,里面有很多小文件。喜欢:
/opt/data/1000/45/32/2009/10/15/76543.zip
Run Code Online (Sandbox Code Playgroud)
当我在这个目录 (/opt/data/) 上启动du或 时find,我的服务器负载增加了很多 (0,5 --> 25) 并且我的系统不再响应。
我可以“减慢” du/find 命令的执行速度以保持系统可访问吗?我不在乎命令是否需要 3 天才能运行 :-) 我已经尝试过但nice -n 19没有成功......
谢谢 !
load-average ×10
linux ×7
cpu-usage ×3
high-load ×2
64-bit ×1
centos5 ×1
dsn ×1
find ×1
performance ×1
rhel6 ×1
sendmail ×1
smtp ×1
ubuntu-14.04 ×1
uptime ×1
zfs ×1