StompBrokerRelayMessageHandler - 传输失败：java.lang.IllegalStateException：没有可用的 TcpConnection

Question

StompBrokerRelayMessageHandler - 传输失败：java.lang.IllegalStateException：没有可用的 TcpConnection

sni*_*guu 6 java stomp websocket spring-messaging

我们在我们的项目中使用 STOMP 代理中继（外部代理 - ActiveMQ 5.13.2）见 https://docs.spring.io/spring/docs/current/spring-framework-reference/web.html#websocket-stomp-handle-代理中继

我们使用以下堆栈：

org.springframework:spring-jms:jar:5.1.8.RELEASE
org.springframework:spring-messaging:jar:5.1.8.RELEASE
io.projectreactor:reactor-core:jar:3.2.8.RELEASE
io.projectreactor.netty:reactor-netty:jar:0.8.6.RELEASE
io.netty:netty-all:jar:4.1.34.Final

Run Code Online (Sandbox Code Playgroud)

有时（假设每两周一次）我们可以在 tomcat catalina.out 中观察到日志错误

2019-08-21 13:38:58,891 [tcp-client-scheduler-5] ERROR com.*.websocket.stomp.SimpMessagingSender  - BrokerAvailabilityEvent[available=false, StompBrokerRelay[ReactorNettyTcpClient[reactor.netty.tcp.TcpClientDoOn@219abb46]]]
2019-08-21 13:38:58,965 [tcp-client-scheduler-1] ERROR org.springframework.messaging.simp.stomp.StompBrokerRelayMessageHandler  - Transport failure: java.lang.IllegalStateException: No TcpConnection available

Run Code Online (Sandbox Code Playgroud)

该错误之后STOMP通信中断（system连接 - 单个TCP连接不可用）

当我们从以下位置更新堆栈时，似乎一切都开始了：

org.springframework:spring-jms:jar:5.0.8.RELEASE
org.springframework:spring-messaging:jar:5.0.8.RELEASE
io.projectreactor:reactor-core:jar:3.1.8.RELEASE
io.projectreactor.netty:reactor-netty:jar:0.7.8.RELEASE
io.netty:netty-all:jar:4.1.25.Final

Run Code Online (Sandbox Code Playgroud)

ActiveMQ 版本未更改

spring中有一个bug，system连接丢失时自动重新连接失败，请参见：https : //github.com/spring-projects/spring-framework/issues/22080

现在 3 个问题：

如何使这个问题更具重现性？
如何修复这种重新连接行为？:)
如何防止失去这个连接？:)

编辑 23.09.2019

错误发生后，端口 61613（STOMP）的 TCP 堆栈如下（请注意 CLOSE_WAIT 状态）：

netstat -an | grep 61613
tcp6       0      0 :::61613                :::*                    LISTEN
tcp6       2      0 127.0.0.1:49084         127.0.0.1:61613         CLOSE_WAIT

Run Code Online (Sandbox Code Playgroud)

Answer 1

The*_*eff 0

我不能说我有足够的信息来回答你的问题，尽管我有一些意见可以帮助你找到前进的方向。

ActiveMQ 通常在托管/分布式环境中使用，因此负载和扩展应始终成为考虑因素。

大多数数据库/消息队列/等..将需要某种负载调整 - 即使在AWS上（通过请求更高的限制），尽管其中大部分是由托管提供商处理的。

但我离题了...

在这种情况下，您的队列似乎使用 TCP 传输：

https://activemq.apache.org/tcp-transport-reference

如您所见，所有这些设置都可以调整并具有默认值。

因此，如果从连接到 AMQ 的Spring 端记录问题，您需要缩小错误发生的时间，然后查看 AMQ 指标和日志。

如果您没有 AMQ 监控，我建议：

添加监控 - https://activemq.apache.org/how-can-i-monitor-activemq
添加日志记录（或找出日志在哪里）。- 然后启用详细日志记录。（AMQ 使用 log4j，因此只需查看 log4j 配置文件或添加一个即可。）除此之外，请考虑将日志发送到日志聚合器。-- https://activemq.apache.org/how-can-i-enable-detailed-logging
查看您的托管提供商的指标和停机时间。例如，如果使用 AWS，则有非常详细的事件日志，用于网络故障或 VPC 或跨区域隧道、网络流量输入/输出等的瞬时问题。

为分布式系统设置正确的工具以使您的团队能够搜索/查找错误/日志（并记录如何执行此操作）非常有帮助。超越此（对于成熟系统）的一步是在监控之上添加一个层，以便您的系统在出现问题时开始告诉您，而不是相反（寻找问题）。

这可能有点冗长 - 但这一切都会导致我询问您在发生故障时是否有 AMQ 系统的日志/指标。如果您这样做，请发布它们！

我提出这些建议是因为：

没有提供有关您的负载预期、负载变化或负载是系统中考虑因素的认识（通过故障排除步骤）的信息。
提供的日志/错误严格来自客户端。
错误的重现性很少且不一致 - 因此它几乎可能是任何事情（内存泄漏、加载问题等） - 因此监视是必要的。

还可以考虑添加 Spring Actuator 来监视 Spring 端的消息客户端，因为客户端连接池和高级设置也经常存在限制/设置，特别是如果您扩大/缩小实例大小等，并且您的实例将处理更多/更少负载，您的客户端库可能需要一些设置调整。

https://www.baeldung.com/spring-boot-actuators

使用 Spring 公开有关当前 Websocket 连接的指标

您还可以捕获异常并拆除并重新创建连接/设置 - 尽管这不是我在不了解连接失败时的情况和统计信息的情况下推荐的第一件事。

归档时间：	6 年，9 月前
查看次数：	570 次
最近记录：	6 年，5 月前