Col*_*nee 2 c windows tcp winsock keep-alive
我遇到了一个关于 TCP 套接字的奇怪错误。似乎SO_KEEPALIVE默认情况下在所有套接字上都启用了。
我写了一个简短的测试用例来创建一个套接字并连接到服务器。紧随连接后,我检查SO_KEEPALIVE有getsockopt。该值不为零,根据 MSDN,这意味着启用了保持活动。也许我误解了这一点。
我最近有一个奇怪的错误,服务器连续两次断开连接。某些客户端处于已发送登录信息并正在等待响应的状态。即使有一个重叠WSARecv发布到连接到服务器的套接字,也没有发布完成通知客户端服务器崩溃,所以我假设套接字没有完全关闭。
大约 2 小时后(实际上大约 1 小时 59 分 19 秒),一个完成数据包被发布用于读取,通知客户端连接不再打开。这是我开始怀疑的地方SO_KEEPALIVE。
我试图理解为什么会发生这种情况。这引起了一些问题,因为由于任何原因失去连接的客户端都应该自动重新连接到服务器;在这种情况下,因为没有通知断开连接,客户端直到 2 小时后才重新连接。
一个明显的解决方法是设置超时,但我想知道这种情况是如何发生的。
SO_KEEPALIVE 我的应用程序服务器或客户端没有在套接字上设置。
// Error checking is removed for this snippet, but all winsock calls succeed.
int main() {
WORD wVersionRequested;
WSADATA wsaData;
int err;
wVersionRequested = MAKEWORD(2, 2);
err = WSAStartup(wVersionRequested, &wsaData);
SOCKET foo = WSASocket(AF_INET, SOCK_STREAM, IPPROTO_TCP, 0, 0, 0);
DWORD optval;
int optlen = sizeof(optval);
int test = 0;
test = getsockopt(foo, SOL_SOCKET, SO_KEEPALIVE, (char*)&optval, &optlen);
std::cout << "Returned " << optval << std::endl;
sockaddr_in clientService;
clientService.sin_family = AF_INET;
clientService.sin_addr.s_addr = inet_addr("127.0.0.1");
clientService.sin_port = htons(446);
connect(foo, (SOCKADDR*) &clientService, sizeof(clientService));
test = getsockopt(foo, SOL_SOCKET, SO_KEEPALIVE, (char*)&optval, &optlen);
std::cout << "Returned " << optval << std::endl;
std::cin.get();
return 0;
}
// Example output:
// Returned 2883584
// Returned 2883584
Run Code Online (Sandbox Code Playgroud)
首先在 VM 上全新安装的操作系统上运行测试。我怀疑您安装的其他东西可能会影响保持活动设置。
其次,我怀疑启用保持活动是您问题的原因。如果未启用保持活动状态,那么您将永远不会从该挂起读取中收到连接关闭通知。TCP 应该这样工作,它允许中间路由器离开和回来,你既不知道也不关心。唯一会通知您失败的时间是您尝试发送但连接断开(或者,在这种情况下,如果您尝试发送但服务器已退回)。启用保持活动的事实意味着在 1 小时 59 分钟标记时 TCP 堆栈传输了保持活动并注意到连接已关闭。如果未启用保持活动,那么您将不得不等到您传输某些内容。
如果您的客户需要知道连接是否断开,那么最好完全忽略保持活动状态(如您所见,即使您不是启用它的人,它也会影响整台机器,对我来说这使它成为一个糟糕的解决方案)。如果可以,请在您的协议中添加应用程序级别的 ping 和/或超时。因此,也许每个命令都希望在 30 秒内得到响应,而您每分钟从服务器发送一个响应……然后您会根据需要尽快发现死连接,然后您可以断开连接并在那时重新连接。
我在我的服务器框架中很好地使用了它;事实上,我有一个标准的“异步读取超时”连接过滤器和一个“连接重新建立”过滤器,这使得确保连接始终有效变得微不足道。读取超时所做的只是中止现有连接,并且连接重新建立代码会启动以重新创建连接,就像连接因任何其他原因关闭一样。