Sim*_*lin 5 performance central-processing-unit vmware-esx utilization vmware-vcenter
我们拥有相当合理规模的 vSphere“资产”,我们 80% 的 Windows/Linux 服务器已虚拟化,运行在六个数据中心。我面临的挑战之一是中长期容量规划,确保我在年度资本支出预测中获得足够的资金,以确保为主机升级(通常是内存)、更多主机(硬件和 ESX 许可证)或最坏情况下的 SAN 扩展提供资金。
不管怎样,直到最近,我还是很乐意接受 vCenter 的性能统计数据作为真正代表正在发生的事情。在查看统计信息时,我通常在集群级别工作,因为每个集群中的主机都具有相同的规格、升级等。
然而,我最近注意到一些让我感到不安的事情。我的一个集群有 200GHz 的 CPU“带宽”可用,其组成如下:
5 hosts x 2 sockets-per-host x 6 cores-per-socket x 3.33GHz per-core = 199.8GHz
Run Code Online (Sandbox Code Playgroud)
这很好,vCenter 正确报告了这个值。但是,当您在 vCenter 中查看集群的 CPU 利用率或使用 PowerCLI 的Get-Stat cmdlet提取统计信息时,CPU 利用率有时会超过 300GHz。这会打乱我的计算,因为利用率达到 150% (!)。现在,我已经很长时间没有做 A-level 数学了,但我看不到 CPU 是如何被 150% 使用的...
因此,我记录了与 VMware 支持的电话。而且,可笑的是,他们说我需要购买 vCenter Operations Manager (vCOPS) 才能完成我想做的事情。好吧,不,谢谢,如果我有一些准确的统计数据,我可以做我自己的决策支持(对不起,咆哮了)。
所以,我提出了一个解释,支持人员说 vCenter 中的数据基于使用平均值总和的“通用”计算。嗯,平均数据样本是很正常的,也可以接受,但我仍然无法理解你怎么能超过 100%。
所以,我一直在尝试自己解决这个问题,我想知道 Xeon 的超线程或“turbo”功能是否会影响结果。然而,“turbo”提升仅从 3.33GHz 到 3.6GHz,即:8%。
有什么线索吗?
这就是vCenter Operations Manager 可以派上用场的地方。不要低估它的实用性...它可能是比您更好的 DSS 平台 :) 但是,与大多数 VMware 环境一样,您将长期耗尽 RAM 资源,因为您会遇到 CPU 限制。在我对其他大型集群的规划工作中,我会根据 RAM 和存储需求调整大小,因为 CPU 从来都不是限制因素。这里使用哪些版本的 ESXi、vSphere 和许可证层?
对于您的主机来说,它们听起来就像基于 3.33GHz Westmere X5680 的系统。您可以选择在打开或关闭超线程的情况下运行这些程序。听起来好像还有其他事情在起作用。当 CPU 峰值达到 150% 时,其他服务器的生命力状况如何?
有一个免费的 vCenter Operations 可用。还提供全功能(60 或 90 天)评估。这对于查明基础设施中的真正瓶颈非常有帮助……即使用于调整虚拟机大小并验证集群运行状况。
可能对您产生影响的视图是“剩余时间”指标,它计算特定资源耗尽之前的剩余时间量。
归档时间: |
|
查看次数: |
1988 次 |
最近记录: |