我们阵列中的一台 CAS 服务器使用了其 4 个 CPU 中的近 90%。其余的 CAS 服务器占 30%。
我应该如何调查导致这种增加的原因?
下图为:
兴趣点

我在服务器上运行了 MSFT 的DebugDiag,但不知道这是否是正确的工具,或者如何处理一些更高级的结果。任何提示表示赞赏。
有人知道人为产生CPU窃取的好方法吗?我有一些自动化我想测试它是由 CPU Steal 触发的,但在我的一生中,我无法弄清楚如何强制 CPU Steal 发生。我已将虚拟机的 CPU 利用率设为 100%,没有进行任何窃取。我无法控制主机,所以我不能只加载一堆 VM 并以这种方式获取 CPU 窃取。
谁有想法?将不胜感激。
我有一个多核 Kubernetes 集群,其中有多个 Pod,配置的 CPU 限制为 500 毫核:
resources:
limits:
cpu: "500m"
Run Code Online (Sandbox Code Playgroud)
在单个 Pod 中是否可以有多个线程并行运行(同时,在同一时刻)?
根据我的理解,当限制小于 1000 毫核时,pod 永远不可能有多个线程并行运行。这是对的吗?
我在裸机上运行 Debian 10(内核 4.19.0-18-amd64),最近我注意到奇怪的 CPU 使用情况。
正如您所看到的,所有核心的 CPU 使用率均报告为 100%,但每个单独进程的报告使用率似乎并不能证明这一点。
我看过iotop
我还能去哪里寻找这个资源霸主呢?
谢谢。
我有一个带有双 Xeon E5-2650v4 cpu 的 Windows 文件服务器。它们各有 14 个核心,因此总共 28 个核心。
网络接口是 Mellanox Connectx3 40gbs。
服务器中的磁盘驱动器是 Raid 0 中的 7.68TB Sata 6gbps ssds x8(软件 Windows 条带)
有 200 个渲染节点从上述服务器读取数据以渲染 3D 帧。
文件服务器有一个 numa 节点或 cpu 使用率 100%,而第二个 cpu 利用率不高。
问题是,有些使用 3D 应用程序的用户在渲染过程中会遇到速度变慢的情况。当没有渲染时,从事项目的艺术家不会遇到任何减速情况。网络并未饱和,因为进出服务器的网络流量只有 5gbps。容量为40Gbps。
那么放缓的原因可能是什么?我怀疑的一件事是 Mellanox 网卡位于连接到 cpu2 的 PCI Express 插槽上,也许这就是 CPU 2 被 100% 使用的原因。每个渲染节点为了渲染而读取数千个小文件。因此,大量文件可能会导致 CPU 利用率较高。
有任何想法吗?
WordPress 网站(4 年前)最近从共享服务器迁移到 AWS 服务器(2cpu、4GB 内存、80 SSD)。迁移后网站工作正常,但在凌晨 2 点到 6 点之间的夜间 CPU 使用率出现峰值(仅在周六或周日)这会导致 CPU 内存不足并关闭整个服务器以及邮件服务器。重新启动服务器后,网站运行正常,CPU 使用率也没有出现峰值(10% - 15%)。所附日志的屏幕截图https://prnt.sc/LTyOU9YrEHd6。网站宕机前的错误日志 服务器重启后的使用情况
是什么原因导致CPU使用率出现问题?是因为spamd使用还是SQL使用?
我正在寻找一个会人为地增加 CPU 负担的命令行应用程序。它需要比繁忙的循环更好。我们正在测试系统在热应力下的承受能力,以及 CPU 需要产生尽可能多的热量。
我正在使用Monit来监视我的 Amazon EC2 Micro 实例,但我对负载平均 CPU 指标有点困惑,因为 Micro 实例能够在短时间内使用多达 2ECU。Monit 经常报告 4 或 5 的平均负载(1 分钟),但我真的不知道这是否真的很高。
据我了解,我的使用配置文件非常适合 Micro 实例,尽管 CPU 使用率达到 100% 时会出现一些峰值,并且这些峰值与 Monit 警报大致相符。

有人可以解释一下什么是微型实例的正常平均负载,以及我应该在哪个阶段开始关注它?
我了解top命令(6.5%us、17.2%sy、0.0%ni等...)报告的各种类型的 CPU 使用率,但为什么每个进程的总 CPU 百分比加起来不等于任何Cpu(s)值?例如,下面的 java 进程消耗了 77.5% 的 CPU,但Cpu(s)说 76.0% 仍然处于空闲状态。为什么是这样?这是在单核系统上。
top - 05:53:27 up 32 min, 2 users, load average: 0.16, 0.29, 0.34
Tasks: 71 total, 1 running, 70 sleeping, 0 stopped, 0 zombie
Cpu(s): 6.5%us, 17.2%sy, 0.0%ni, 76.0%id, 0.0%wa, 0.0%hi, 0.3%si, 0.0%st
Mem: 1758616k total, 643432k used, 1115184k free, 12224k buffers
Swap: 917500k total, 0k used, 917500k free, 304608k cached
PID USER PR NI VIRT …Run Code Online (Sandbox Code Playgroud) 在高性能计算的背景下,是否存在合理/安全的 CPU 负载水平?
我理解的意思的平均负载在一般的服务器,但不知道会发生什么,建成并用于高性能计算服务器。
通常的约定是否load <= # of cores适用于这种环境?
鉴于我的系统特定详细信息,我很好奇,通常load >> # of cores每个节点:
节点的正常运行时间很长,CPU 使用率/负载通常很高。很少有硬件故障,尤其是 CPU,但我不知道在给定高负载的节点的整个生命周期中会发生什么。
示例top输出:
top - 14:12:53 up 4 days, 5:45, 1 user, load average: 313.33, 418.36, 522.87
Tasks: 501 total, 5 running, 496 sleeping, 0 stopped, 0 zombie
%Cpu(s): 33.5 us, 50.9 sy, 0.0 ni, 15.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 19650371+total, 46456320 …Run Code Online (Sandbox Code Playgroud) linux central-processing-unit cpu-usage high-load load-average
cpu-usage ×10
linux ×6
top ×2
amazon-ec2 ×1
aws-ec2 ×1
benchmark ×1
debian ×1
debugging ×1
hardware ×1
high-load ×1
htop ×1
kubernetes ×1
load-average ×1
perfmon ×1
performance ×1
storage ×1
threads ×1
windows ×1
wordpress ×1