在Tomcat中多次重新部署Web应用程序后如何解决Metaspace OOM?

Leo*_*hen 4 java out-of-memory tomcat8 metaspace

德拉所有,

我使用的是 openjdk 1.8.0_212-b04、Tomcat 8.0.21 和 Red Hat 6.4。

并且我已经调整了测试web应用程序,确保重新部署后不会出现这样的消息

WARNING: The web application [Test] appears to have started a thread named [test-job_Worker-1] but has failed to stop it. This is very likely to create a memory leak. Stack trace of thread
Run Code Online (Sandbox Code Playgroud)

这是我在测试中使用的GC参数:

-Xms2G -Xmx4G 
-XX:MaxMetaspaceSize=1G -XX:CompressedClassSpaceSize=300 

-Dsun.rmi.dgc.client.gcInterval=9223372036854775807 
-Dsun.rmi.dgc.server.gcInterval=9223372036854775807 
-XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:GCLogFile Size=10M -XX:NumberOfGCLogFiles=5 -Xloggc:$LOG_HOME/gc-$START_TIME.log
Run Code Online (Sandbox Code Playgroud)

我使用了一个 shell 脚本,不断接触 web.xml 以重新部署 Web 应用程序。测试期间没有其他流量/操作。

这是测试期间 VisualVM 的元空间图: 在此处输入图片说明

如图所示:在第1点,元空间会在某个时候缩小,所以我认为应该没有元空间内存泄漏。

但是在第 2 点,Tomcat 抛出元空间 OOM:

14-Jun-2019 09:26:32.184 SEVERE [ContainerBackgroundProcessor[StandardEngine[Catalina]]] org.apache.catalina.core.ContainerBase$ContainerBackgroundProcessor.run Unexpected death of background thread ContainerBackgroundProcessor[StandardEngine[Catalina]]
 java.lang.OutOfMemoryError: Metaspace
        at java.lang.ClassLoader.defineClass1(Native Method)
        at java.lang.ClassLoader.defineClass(ClassLoader.java:763)
        at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
        at org.apache.catalina.loader.WebappClassLoaderBase.findClassInternal(WebappClassLoaderBase.java:2472)
        at org.apache.catalina.loader.WebappClassLoaderBase.findClass(WebappClassLoaderBase.java:854)
        at org.apache.catalina.loader.WebappClassLoaderBase.loadClass(WebappClassLoaderBase.java:1274)
        at org.apache.catalina.loader.WebappClassLoaderBase.loadClass(WebappClassLoaderBase.java:1157)
        at org.apache.logging.log4j.status.StatusLogger.<init>(StatusLogger.java:108)
        at org.apache.logging.log4j.status.StatusLogger.<clinit>(StatusLogger.java:85)
        at org.apache.logging.log4j.web.Log4jServletContextListener.<clinit>(Log4jServletContextListener.java:44)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
Run Code Online (Sandbox Code Playgroud)

在第 3 点,我单击 VisualVM 中的 GC 按钮,元空间实际上是可收缩的。

我尝试添加参数:-XX:MaxMetaspaceFreeRatio=60,但仍然得到 smae 结果。

这是 GCeasy 的元空间图: 在此处输入图片说明

这是 GC 日志: GC 日志

感谢您提供解决/排除故障/调试 OOM 错误的任何建议。

更新 1:感谢@samabcde 的建议,我添加了 se.jiderhamn.classloader.leak.prevention.ClassLoaderLeakPreventor 以进行更多测试。它有助于删除一些 ThreadLocal 变量并使 Web 应用程序保持更多时间。

14-Jun-2019 17:44:31.463 INFO [ContainerBackgroundProcessor[StandardEngine[Catalina]]] se.jiderhamn.classloader.leak.prevention.JULLogger.info Custom ThreadLocal of type org.springframework.core.NamedThreadLocal: Prototype beans currently in creation with value null will be remove()d from Thread[ContainerBackgroundProcessor[StandardEngine[Catalina]],5,main]
Run Code Online (Sandbox Code Playgroud)

但是还是得到了Metaspace OOM。 在此处输入图片说明

Leo*_*hen 5

测试的时候看到Metaspace快到max了,就停下来重新部署web应用,做了heap dump,放到MAT下分析。

正如预期的那样,有很多 WebappClassLoader。但是我检查了它的Path To GC Roots | 排除所有幻影/弱/软。等引用,它是GC Root。

我检查了它的GC 根路径 | 有了所有引用,那么就有不止一个 GC Roots。 在此处输入图片说明

所以......那些WebappClassLoader实际上是幻觉/弱/软。被其他对象引用,它会在堆中停留一段时间以被释放。

然后我添加 GC 参数:-XX:SoftRefLRUPolicyMSPerMB=10,Web 应用程序可以重新部署超过 1000 次...

所以问题解决了!

附注。由于我们不会在短时间内在生产环境中重新部署 web 应用程序,因此我们不会使用 -XX:SoftRefLRUPolicyMSPerMB=10。