Redhat phantom 内存不足问题

Mik*_*lls 2 redhat java centos

我们有一个运行各种无头应用程序的服务器,例如 Java。它处理流数据、日常 python 脚本等。我们的一些应用程序有时会收到out of memory errors.

我们遇到的问题是监控显示内存充足。我们把它从128GB升级到192GB,但并没有解决问题。我们的监控每 20 秒读取一次读数,并显示过去 2 天内的最小可用内存为 132GB。但今天早上我们发现一些应用程序因内存不足错误而失败。内存充足的情况下是否有可能发生 OOM?

编辑:回答大卫的问题

  • 是的,192GB 只是分配给操作系统的 RAM。它是一个虚拟机
  • 监控将读取操作系统的空闲/可用内存,我们没有任何每个进程监控
  • 大多数 java 进程不会在 CLI 上指定内存要求(例如 Xmx 等)
  • 例外是“线程“主”java.lang.OutOfMemoryError中的异常:无法创建新的本机线程”

我想补充一点,多个进程同时失败。对我来说,这表明这不是流程本身的问题,而是与系统有关。一些失败的应用程序每天都在做同样的事情,即处理相当一致的数据流。他们不可能被大量的请求淹没。

Dav*_*ren 7

当您说“我们将其从 128GB 升级到 192GB 但并没有解决问题”时,您是什么意思?JVM堆空间?RHEL 虚拟机?另外,“我们的监控会读取数据”是什么意思?您的监控是查看 Java 堆内存还是系统内存?

内存充足的情况下是否有可能发生 OOM?

当然。最常见的原因是“有足够的 RAM 可用”,但类型不正确。例如,您的服务器上有 RAM,但 Java 进程未配置为使用它。或者 Java 堆中有可用的 RAM,但 Java 应用程序需要堆栈内存而不是堆内存。或者烫发记忆。或者堆外内存。

还有一些其他边缘情况,即使使用上述情况,您也可能会遇到 OOM 错误,但这种情况非常罕见。最有可能的是您添加了错误类型的内存。

如果我要调试,我的第一步是:

  • OOM 错误到底是什么?您在哪里看到它?
  • 查看 JVM 启动标志(以及可能的应用程序配置,具体取决于应用程序的类型)。
  • 在应用程序中启用 GC 日志记录。

编辑以响应堆栈跟踪:

好吧,看起来我的“还有一些其他边缘情况”评论是有预见性的。我同意 Philipp Wendler 的评论,即这是/sf/ask/1175250191/的重复。您实际上并没有耗尽内存,而是耗尽了线程。

您可以在这里查看: https: //access.redhat.com/solutions/1420363了解如何增加线程数量(简短版本:更新/proc/sys/kernel/threads-max)。但正如链接的 Stack Overflow 帖子中所讨论的,您可能需要修复您的应用程序,而不仅仅是突破限制。任何使用超过默认最大线程数的应用程序都可能存在线程泄漏。(如果它们不是,那么肯定会浪费线程。)特别是如果您说它们没有被请求淹没。