我们有许多运行 Debian Squeeze 的 Soekris 机器。它们是通过自动过程安装的,包括使用 deboostrap 并将其复制到 CF 卡。我们使用 puppet 来管理所有这些 box 的配置。
在 Debian Squeeze 之前,他们运行的是 Voyage Linux,它只是 Debian 的“轻量级”版本。由于我们已经切换,我们看到 /lib/udev/net.agent 进程占用了大量的 CPU。到目前为止,我们一直无法找到任何关于这到底做了什么以及为什么它占用了大量 CPU 时间的线索。
在 htop 中,我们看到以下内容:

我们完全没有看到与此进程相关的系统日志消息,所以我们有点迷茫......所以,我正在寻找有关此进程一般做什么以及这种 CPU 使用率的潜在原因可能是什么的指针。
编辑 :
我的 /etc/network/interfaces 如下:
auto eth0
iface eth0 inet dhcp
up iptables-restore < /etc/iptables.conf
auto br0
iface br0 inet static
address 192.168.51.1
netmask 255.255.255.0
network 192.168.51.0
broadcast 192.168.51.255
bridge_ports eth1 eth3
Run Code Online (Sandbox Code Playgroud)
编辑2:
进行更多调查后,此问题仅在大约 6 天后出现,只需重新启动系统即可解决另外 6 天。现在它更没有意义了。我想避免每隔几天安排一次重启,因为这听起来不是一个不错的解决方案。
编辑3:
这似乎不是经常发生,因为它只是在 3 天后发生。
在我们的其中一台生产 Linux 服务器中,CPU 利用率正在交叉100 %,有时甚至是250%.
如何找到哪个进程使用了更多 CPU 利用率以及在哪里可以找到 CPU 利用率日志?
操作系统:RHEL 5.5
我使用来自 Dotdeb 存储库的 Debian 6.0.3 x86_64 和 MySQL 5.5.20-1~dotdeb.0-log。根据此图,MySQL 进程在几个小时前开始消耗大量“sy”CPU 时间。我无法连接到正在运行的mysqld进程,不得不杀死它。我在日志中没有发现任何有用的东西。我的设置似乎很常见(我假设 Dotdeb 只是重新分发库存的 MySQL 版本)而且我以前从未见过这样的事情。这可能的根本原因是什么?我如何才能防止将来出现这种情况?
我不断收到 RAM 和 CPU 峰值,但我不知道它来自哪里。
如果我查看流程管理器,我会看到,
/usr/bin/php /home/hellohel/public_html/index.php
Run Code Online (Sandbox Code Playgroud)
重复了几次。我也偶尔看到:
[php] <defunct>
Run Code Online (Sandbox Code Playgroud)
占用我大约 30% 的 CPU!我有一个非常强大的服务器(云 VPS),有很多 CPU 和很多 RAM。通常,我的内存和 CPU 使用率保持在 7-9% 的健康状态,但每隔一段时间就会出现一个峰值,从而减慢我的网站速度。我的网站一整天都有很多流量,我认为峰值不是来自高流量峰值,而是某种内存泄漏。
我最大的问题是:
当我查看我的每日流程日志时,我看到:
49.0% /usr/bin/php /home/hellohel/public_html/index.php
Run Code Online (Sandbox Code Playgroud)
事实上,这个目录甚至不存在。没有/usr/bin/php /目录。真正的脚本位于:
/home/hellohel/public_html/index.php
Run Code Online (Sandbox Code Playgroud)
这里发生了什么?或者这一切正常吗...
我正在使用 ubuntu 服务器 12.04 x64。服务器通过 apache 网络服务器(它的轻量级接口)接收大量对 mysql 的请求。从 mysql 统计信息中,我看到从早上 8 点到晚上 9 点大约有 250 个查询/秒。晚上服务器几乎不使用。RAM 主要由 mysql 使用(根据 mysqloptimizer 最大 MySQL ram 使用量为 25GB)。Top 证实了这一点 - mysql 使用了大约 77% 的 RAM。
数据库大小约为 20GB。一张受到最严重攻击的表有大约 1-2 百万条记录(主要是来自几个表的 id 字段加上一些 smallints 计数器)。
我附上了说明我感兴趣的部分的图像(第二个内存图像显示了服务器重启后的内存行为)。
在看 munin 时,我提出了几个问题:
为什么在内存使用中apps内存几乎永远不会下降?例如在晚上服务器上没有流量时,它不应该减少吗?
以某种方式调整它为缓存提供更多内存空间不是更好吗?
RAM已满时,为什么CPU使用率如此之低?
不活跃的记忆水平也在上升,这让我有点担心。
出现这些问题是因为偶尔流量会在短时间内显着上升,并且在那些时刻服务器没有响应大量请求。但在那些时刻,RAM/CPU 甚至磁盘延迟并没有增加太多,也许只是一点点。这些流量上升是不可避免的,但我不确定用 stringer one 替换服务器是否会做到这一点,或者可能只放置更多 RAM(因为 CPU 使用率最低)?
如果这个问题无法回答 - 抱歉。
编辑: # # MySQL 数据库服务器配置文件。# # 您可以将其复制到以下选项之一:# - "/etc/mysql/my.cnf" 设置全局选项,# - "~/.my.cnf" 设置用户特定选项。# # 可以使用程序支持的所有长选项。# 使用 --help 运行程序以获取可用选项列表,并使用 …
我监控大约。10 台 Linux 服务器,每台带有 Zabbix 的 4 个 CPU 内核。
我最近收到了许多来自“处理器负载过高”触发器的误报。
“处理器负载太高”触发表达式是:
{Template OS Linux:system.cpu.load[percpu,avg1].avg(5m)}>5
Run Code Online (Sandbox Code Playgroud)
这是默认的。
然后我将 5 加到 12 以减少警报,但不知何故认为这不是处理它的最佳方法。因此我做了一些谷歌搜索并构建了一个新的触发器。
{Template OS Linux:system.cpu.util[,user].max(5m)}>75
Run Code Online (Sandbox Code Playgroud)
我会问社区:
你将如何编写一个表达式,它会这样做:
触发器将在以下情况下触发:
({Template OS Linux:system.cpu.load[percpu,avg1].avg(5m)}>3
&
{Template OS Linux:system.cpu.util[,user].max(5m)}>75)
Run Code Online (Sandbox Code Playgroud)
但我失败了。
Zabbix 服务器返回错误:
触发器表达式不正确。检查从“ & {Template OS Linux:system.cpu.util[,user].max(5m)}>75)”开始的表达式部分。
由于我还不是 Zabbix 方面的专家(目前),我将非常感谢这些评论。谢谢。
在一个相当繁忙的RHEL6服务器上,我平均会注意到以下迹象
CPU Usage : 2%.
CPU Load AVG: 0.4,0.2,0.1
Memory Usage: 1.3 out of 16 GB
Run Code Online (Sandbox Code Playgroud)
这是该服务器的 CPU
Intel(R) Xeon(R) CPU E31240 @ 3.30GHz, 8 cores
Run Code Online (Sandbox Code Playgroud)
这是否意味着服务器运行状况良好且负载不高?我会这么认为,但由于即使交通相当繁忙,这始终处于低端,我只是想知道我是否可以忽略某些东西?
并不是说我希望服务器陷入困境,我们努力确保我们使用最少的资源并尽可能有效地提供网页服务,但我只是想确保有一天我不会感到意外。
设置 我有一堆 t2.small EC2 实例运行托管称为thumbor的图像处理库,用于简单的动态图像大小调整。原件从 S3 加载。在实例前面我有一个 EC 负载均衡器。我在服务器中安装了 New Relic 服务器监控。
问题 在随机时间,我的服务器突然开始体验极高的平均。响应时间。如果我查看 New Relic 中的统计数据,我唯一看到的是服务器 CPU 持续飙升,报告“被盗”的 CPU。
我的服务器似乎有足够高的容量,同时吞吐量并没有出现任何极端峰值。
我注意到,如果我再次停止/启动服务器。然后被盗的 CPU 消失了,它们再次运行良好 - 直到下一次 - 可能需要数小时或数天。
为什么会发生这种情况,我该怎么办?
我不明白为什么 root 用户会占用巨大的 CPU 负载,因为没有特殊的进程在运行。
top -c
非常基本的疑问:我有一个应用程序在具有 2 个 vCPU 的 VM 上运行。两个 CPU 的平均负载略低于 50%。
这是否意味着 1 个 CPU 足以满足我的应用程序?或者更多的 CPU 受益于并行运行的线程?
编辑:这是一个来自我的系统的真实示例,它由 8 个 CPU 组成,超过一个月。数据归一化为 100%=8CPU。我想知道这些信息是否足以解决我的问题,基本上是系统过大。
cpu-usage ×10
linux ×3
memory ×2
mysql ×2
ubuntu ×2
amazon-ec2 ×1
debian ×1
load-average ×1
performance ×1
php ×1
rhel5 ×1
rhel6 ×1
scaling ×1
udev ×1
zabbix ×1