在宣布正常之前,我应该对 CPU 和内存进行多长时间/多难的压力测试?

Cpt*_*rkt 0 load-testing central-processing-unit stress cpu-usage stress-testing

我们的一台戴尔 PowerEdge LCD 显示“CPU 2 机器检查错误”,但我在日志中找不到任何关于 MCE 或“硬件错误”的信息。我清除了消息,但我想通过一些沉重的东西来运行机器,看看我是否可以让它再次绊倒。

我使用了一个无限循环 bash 脚本,在几分钟内执行了 64 次(每个核心一次)。然后我使用一个名为“stress”的程序对 CPU 和内存做同样的事情。我的问题是,在通常可以说“好吧,这台机器很好用”之前,足够的数量是多少?几分钟?一小时?只要 CPU 温度保持正常?

Dan*_*ick 5

如果服务器在保修期内,请让供应商更换该部件。

如果服务器不在保修期内且无法更换部件,最终答案将是主观的。

这是一个不能失败的服务器(即:运行生命支持,处理实时金融交易)?或者这只是一个小狗粉丝网站的网络服务器?

无论哪种方式,只需通过新硬件的任何“烧入”过程运行服务器。


我要补充一点:如果您来到这里是希望找到某人来签署将服务器留在生产中所涉及的风险,那么我们的任何答案都不应被解释为我们认为将服务器按原样保留是可以接受的. 是您必须通过公司内部的风险评估流程发送的内容。这里没有人可以给出明确的“运行memtest和prime x天没有错误,你保证有一个稳定的服务器”......