TCP 如何处理针对一个端口的多个请求?

Ric*_*ard 4 networking tcp port

由于服务器可能同时收到来自客户端的多个请求到特定端口,例如 HTTP 对象的端口 80,服务器如何处理并发请求?

use*_*686 5

TCP 并没有真正定义“请求”的样子;作为一种传输协议,它只提供双工数据流(与串行端口上的数据传输没有什么不同),剩下的交给应用程序来解决。

这也意味着请求不是针对端口的;他们是针对通过特定连接(数据流)发送。单个 TCP 数据包本身没有意义;它们总是重新组合成连续的数据流。您已经注意到每个数据包都带有目标源端口号,将其标识为属于特定连接。(注意:它们并不能完全区分特定的客户端,因为单个客户端可能会打开多个连接;而是区分特定的数据流。)

所以这个问题真的不再与端口有关了——剩下的唯一问题是运行在 TCP 上的协议如何区分同一连接上的多个请求。


有些协议一开始甚至不是面向请求的——它们可能是面向命令的,比如 FTP 或 SMTP;或者他们可能有带响应和不带响应的混合请求,例如 SSH;或者他们可能会传输非结构化数据,这些数据看起来根本不像是由不同的请求组成的,比如简单的 Telnet。

某些协议,例如 HTTP/1.0 或 Gopher 或 WHOIS,每个连接只允许一个请求。服务器发送响应后,它只是关闭连接,客户端必须再次连接(使用新的 TCP src/dst 端口对)。

HTTP/1.1 支持长连接,但一次仍然只有一个请求。客户端必须等待第一个响应完成才能发送第二个请求。(现在需要区分多个响应:对于常规资源,HTTP 客户端使用“Content-Length”标头来了解响应何时完成,“不定长度”响应使用“分块”格式发送。)

还有一个名为“流水线”的 HTTP/1.1 扩展,它允许多个请求堆叠并一次发送。它的机制很简单:响应以与请求完全相同的顺序到达。(但请注意,尽管大多数 HTTP 客户端使用长期连接,但它们使用 HTTP 流水线,因为结果证明它提供的问题多于解决方案。)

一些协议在 TCP 提供的流之上添加自己的多路复用。目前最著名的例子是 HTTP/2,它在单个 TCP 连接上有一个“流”系统——每个请求和响应都分配有自己的流,分成小块,块携带它们的长度和流标识。接收者可以通过基于流 ID 重新组合它们来区分多个请求……这实际上反映了 TCP 的工作方式。

其他协议如 DNS 更简单,但具有相同的一般概念;通过 TCP 的 DNS 请求或响应以它自己的字节长度作为前缀,因此接收器确切地知道第一个请求是多少字节,因此第二个请求从哪里开始。响应再次携带“请求 ID”,客户端可以知道哪个响应属于哪个请求。


所以一般来说,有两种常见的格式用于在单个 TCP 连接或其他传输流上分隔多个请求:

  • Line-based,其中每个数据包都以换行符或其他特殊字符终止或分隔。IRC、FTP(控制)、SMTP 大多是基于行的。

  • Length-based,其中每个数据包都以其自己的字节长度为前缀。SSH、DNS、git://、HTTP/2 是基于长度的。

  • HTTP/1.x 是两者的不幸组合:请求/响应是基于行的,但主体是基于长度的。

    还有其他奇怪的东西,例如 IMAP 是基于行的,除非它不是。

并且有两种常用的方法来处理多个请求并整理出相应的响应(如果协议允许):

  • 流水线——客户端可以按特定顺序提交多个请求并且响应以完全相同的顺序到达。

    所以在 HTTP/1.1 中,如果客户端请求页面 A、页面 B、页面 C,那么服务器总是按照页面 A、页面 B 和页面 C 的顺序响应。

  • 多路复用——客户端可以提交多个具有单独“请求 ID”的请求,并且响应可以以任何顺序到达,因为每个响应都带有提示它的原始“请求 ID”。

    例如,在 DNS 中,客户端可以请求 google.com/A (req#1234) 和 facebook.com/AAAA (req#3456),服务器可能会在开始处理 req# 之前响应 req#3456 1234.

    IMAP 已经标记了请求/响应,但它也有服务器可能发送的与任何特定请求无关的主动响应(例如推送通知)。

  • 多路复用也可以与“通道 ID”一起使用,就像 HTTP/2 和 SSHv2 中的情况一样。不同之处在于“通道 ID”是长期存在的,并且确实像 TCP 标头中的端口一样工作,而“请求 ID”是短期存在的。

    在 HTTP/2 中,每个请求都被分配一个流,响应可能是交错的——客户端可能会收到一些标记为“流 A”的数据,一些标记为“流 B”的数据,然后是流 A 的更多数据。 虽然流只携带单个请求/响应,它们仍然由多个不同的消息组成,因此更像是通道 ID。

  • 甚至可能两者兼而有之——例如,一个协议可能具有多路复用通道,但在每个通道上它可能携带多个标记或流水线请求。

    SSHv2 就是这样工作的——同一个连接可能有多个交互式 shell 通道(非结构化)、SFTP 通道(流水线请求/响应)、TCP 转发通道(非结构化)、一个 ssh-agent 转发通道(流水线请求/响应)等等.