StompBrokerRelayMessageHandler - 传输失败:java.lang.IllegalStateException:没有可用的 TcpConnection

sni*_*guu 6 java stomp websocket spring-messaging

我们在我们的项目中使用 STOMP 代理中继(外部代理 - ActiveMQ 5.13.2)见 https://docs.spring.io/spring/docs/current/spring-framework-reference/web.html#websocket-stomp-handle-代理中继

我们使用以下堆栈:

org.springframework:spring-jms:jar:5.1.8.RELEASE
org.springframework:spring-messaging:jar:5.1.8.RELEASE
io.projectreactor:reactor-core:jar:3.2.8.RELEASE
io.projectreactor.netty:reactor-netty:jar:0.8.6.RELEASE
io.netty:netty-all:jar:4.1.34.Final
Run Code Online (Sandbox Code Playgroud)

有时(假设每两周一次)我们可以在 tomcat catalina.out 中观察到日志错误

2019-08-21 13:38:58,891 [tcp-client-scheduler-5] ERROR com.*.websocket.stomp.SimpMessagingSender  - BrokerAvailabilityEvent[available=false, StompBrokerRelay[ReactorNettyTcpClient[reactor.netty.tcp.TcpClientDoOn@219abb46]]]
2019-08-21 13:38:58,965 [tcp-client-scheduler-1] ERROR org.springframework.messaging.simp.stomp.StompBrokerRelayMessageHandler  - Transport failure: java.lang.IllegalStateException: No TcpConnection available
Run Code Online (Sandbox Code Playgroud)

该错误之后STOMP通信中断(system连接 - 单个TCP连接不可用)

当我们从以下位置更新堆栈时,似乎一切都开始了:

org.springframework:spring-jms:jar:5.0.8.RELEASE
org.springframework:spring-messaging:jar:5.0.8.RELEASE
io.projectreactor:reactor-core:jar:3.1.8.RELEASE
io.projectreactor.netty:reactor-netty:jar:0.7.8.RELEASE
io.netty:netty-all:jar:4.1.25.Final
Run Code Online (Sandbox Code Playgroud)

ActiveMQ 版本未更改

spring中有一个bug,system连接丢失时自动重新连接失败,请参见:https : //github.com/spring-projects/spring-framework/issues/22080

现在 3 个问题:

  1. 如何使这个问题更具重现性?
  2. 如何修复这种重新连接行为?:)
  3. 如何防止失去这个连接?:)

编辑 23.09.2019

错误发生后,端口 61613(STOMP)的 TCP 堆栈如下(请注意 CLOSE_WAIT 状态):

netstat -an | grep 61613
tcp6       0      0 :::61613                :::*                    LISTEN
tcp6       2      0 127.0.0.1:49084         127.0.0.1:61613         CLOSE_WAIT
Run Code Online (Sandbox Code Playgroud)

The*_*eff 0

我不能说我有足够的信息来回答你的问题,尽管我有一些意见可以帮助你找到前进的方向。

ActiveMQ 通常在托管/分布式环境中使用,因此负载和扩展应始终成为考虑因素。

大多数数据库/消息队列/等..将需要某种负载调整 - 即使在AWS上(通过请求更高的限制),尽管其中大部分是由托管提供商处理的。

但我离题了...

在这种情况下,您的队列似乎使用 TCP 传输:

https://activemq.apache.org/tcp-transport-reference

如您所见,所有这些设置都可以调整并具有默认值。

因此,如果从连接到 AMQ 的Spring 端记录问题,您需要缩小错误发生的时间,然后查看 AMQ 指标和日志。

如果您没有 AMQ 监控,我建议:

  1. 添加监控 - https://activemq.apache.org/how-can-i-monitor-activemq
  2. 添加日志记录(或找出日志在哪里)。- 然后启用详细日志记录。(AMQ 使用 log4j,因此只需查看 log4j 配置文件或添加一个即可。)除此之外,请考虑将日志发送到日志聚合器。-- https://activemq.apache.org/how-can-i-enable-detailed-logging
  3. 查看您的托管提供商的指标和停机时间。例如,如果使用 AWS,则有非常详细的事件日志,用于网络故障或 VPC 或跨区域隧道、网络流量输入/输出等的瞬时问题。

为分布式系统设置正确的工具以使您的团队能够搜索/查找错误/日志(并记录如何执行此操作)非常有帮助。超越此(对于成熟系统)的一步是在监控之上添加一个层,以便您的系统在出现问题时开始告诉您,而不是相反(寻找问题)。

这可能有点冗长 - 但这一切都会导致我询问您在发生故障时是否有 AMQ 系统的日志/指标。如果您这样做,请发布它们!

我提出这些建议是因为:

  • 没有提供有关您的负载预期、负载变化或负载是系统中考虑因素的认识(通过故障排除步骤)的信息。
  • 提供的日志/错误严格来自客户端。
  • 错误的重现性很少且不一致 - 因此它几乎可能是任何事情(内存泄漏、加载问题等) - 因此监视是必要的。

还可以考虑添加 Spring Actuator 来监视 Spring 端的消息客户端,因为客户端连接池和高级设置也经常存在限制/设置,特别是如果您扩大/缩小实例大小等,并且您的实例将处理更多/更少负载,您的客户端库可能需要一些设置调整。

https://www.baeldung.com/spring-boot-actuators

使用 Spring 公开有关当前 Websocket 连接的指标

您还可以捕获异常并拆除并重新创建连接/设置 - 尽管这不是我在不了解连接失败时的情况和统计​​信息的情况下推荐的第一件事。