vCenter 集群 CPU 利用率数据不准确

Question

vCenter 集群 CPU 利用率数据不准确

Sim*_*lin 5 performance central-processing-unit vmware-esx utilization vmware-vcenter

我们拥有相当合理规模的 vSphere“资产”，我们 80% 的 Windows/Linux 服务器已虚拟化，运行在六个数据中心。我面临的挑战之一是中长期容量规划，确保我在年度资本支出预测中获得足够的资金，以确保为主机升级（通常是内存）、更多主机（硬件和 ESX 许可证）或最坏情况下的 SAN 扩展提供资金。

不管怎样，直到最近，我还是很乐意接受 vCenter 的性能统计数据作为真正代表正在发生的事情。在查看统计信息时，我通常在集群级别工作，因为每个集群中的主机都具有相同的规格、升级等。

然而，我最近注意到一些让我感到不安的事情。我的一个集群有 200GHz 的 CPU“带宽”可用，其组成如下：

5 hosts x 2 sockets-per-host x 6 cores-per-socket x 3.33GHz per-core = 199.8GHz

Run Code Online (Sandbox Code Playgroud)

这很好，vCenter 正确报告了这个值。但是，当您在 vCenter 中查看集群的 CPU 利用率或使用 PowerCLI 的Get-Stat cmdlet提取统计信息时，CPU 利用率有时会超过 300GHz。这会打乱我的计算，因为利用率达到 150% (!)。现在，我已经很长时间没有做 A-level 数学了，但我看不到 CPU 是如何被 150% 使用的...

因此，我记录了与 VMware 支持的电话。而且，可笑的是，他们说我需要购买 vCenter Operations Manager (vCOPS) 才能完成我想做的事情。好吧，不，谢谢，如果我有一些准确的统计数据，我可以做我自己的决策支持（对不起，咆哮了）。

所以，我提出了一个解释，支持人员说 vCenter 中的数据基于使用平均值总和的“通用”计算。嗯，平均数据样本是很正常的，也可以接受，但我仍然无法理解你怎么能超过 100%。

所以，我一直在尝试自己解决这个问题，我想知道 Xeon 的超线程或“turbo”功能是否会影响结果。然而，“turbo”提升仅从 3.33GHz 到 3.6GHz，即：8%。

有什么线索吗？

Answer 1

eww*_*ite 1

这就是vCenter Operations Manager 可以派上用场的地方。不要低估它的实用性...它可能是比您更好的 DSS 平台 :) 但是，与大多数 VMware 环境一样，您将长期耗尽 RAM 资源，因为您会遇到 CPU 限制。在我对其他大型集群的规划工作中，我会根据 RAM 和存储需求调整大小，因为 CPU 从来都不是限制因素。这里使用哪些版本的 ESXi、vSphere 和许可证层？

对于您的主机来说，它们听起来就像基于 3.33GHz Westmere X5680 的系统。您可以选择在打开或关闭超线程的情况下运行这些程序。听起来好像还有其他事情在起作用。当 CPU 峰值达到 150% 时，其他服务器的生命力状况如何？

有一个免费的 vCenter Operations 可用。还提供全功能（60 或 90 天）评估。这对于查明基础设施中的真正瓶颈非常有帮助……即使用于调整虚拟机大小并验证集群运行状况。

可能对您产生影响的视图是“剩余时间”指标，它计算特定资源耗尽之前的剩余时间量。

归档时间：	12 年，4 月前
查看次数：	1988 次
最近记录：	12 年，4 月前