syn队列和accept队列的混淆

tyC*_*hen 5 sockets linux tcp linux-kernel handshake

在阅读TCP源码时,我发现一个困惑的事情:

我知道 TCP 在 3 次握手中有两个队列:

  • 第一个队列存储服务器已接收并发SYN回的连接ACK + SYN,我们称之为syn 队列
  • 第二个队列存放3WHS成功并建立连接的连接,我们称之为accept队列

但是在阅读代码时,我发现listen()will call inet_csk_listen_start(),它将调用reqsk_queue_alloc()create icsk_accept_queue。并且该队列用于 中accept(),当我们发现队列不为空时,我们将从它获取连接并返回。

更重要的是,跟踪接收过程后,调用堆栈是这样的

tcp_v4_rcv()->tcp_v4_do_rcv()->tcp_rcv_state_process()
Run Code Online (Sandbox Code Playgroud)

收到第一次握手时,服务器状态为 LISTEN。所以它会调用

`tcp_v4_conn_request()->tcp_conn_request()`
Run Code Online (Sandbox Code Playgroud)

tcp_conn_request()

if (!want_cookie)
    // Add the req into the queue
    inet_csk_reqsk_queue_hash_add(sk, req, tcp_timeout_init((struct sock *)req));
Run Code Online (Sandbox Code Playgroud)

但这里的队列正是icsk_accept_queue,而不是 syn 队列。

void inet_csk_reqsk_queue_hash_add(struct sock *sk, struct request_sock *req,
                   unsigned long timeout)
{
    reqsk_queue_hash_req(req, timeout);
    inet_csk_reqsk_queue_added(sk);
}

static inline void inet_csk_reqsk_queue_added(struct sock *sk)
{
    reqsk_queue_added(&inet_csk(sk)->icsk_accept_queue);
}

Run Code Online (Sandbox Code Playgroud)

accept()返回已建立的连接,也就是说icsk_accept_queue是第二个队列,但是第一个队列在哪里呢?

连接从第一个队列更改到第二个队列的位置在哪里?

为什么Linux要添加新的req到icsk_accept_queue

Jim*_* D. 9

接下来,我们将遵循最典型的代码路径,并忽略因丢包、重传以及使用 TCP 快速打开(代码注释中的 TFO)等非典型功能而产生的问题。

对accept的调用由 处理intet_csk_accept,它调用从监听套接字中reqsk_queue_remove取出接受队列中的一个套接字:&icsk->icsk_accept_queue

struct sock *inet_csk_accept(struct sock *sk, int flags, int *err, bool kern)
{
    struct inet_connection_sock *icsk = inet_csk(sk);
    struct request_sock_queue *queue = &icsk->icsk_accept_queue;
    struct request_sock *req;
    struct sock *newsk;
    int error;

    lock_sock(sk);

    [...]

    req = reqsk_queue_remove(queue, sk);
    newsk = req->sk;

    [...]

    return newsk;

    [...]
}
Run Code Online (Sandbox Code Playgroud)

在 中reqsk_queue_remove,它使用rskq_accept_headrskq_accept_tail将套接字从队列中拉出并调用sk_acceptq_removed

static inline struct request_sock *reqsk_queue_remove(struct request_sock_queue *queue,
                              struct sock *parent)
{
    struct request_sock *req;

    spin_lock_bh(&queue->rskq_lock);
    req = queue->rskq_accept_head;
    if (req) {
        sk_acceptq_removed(parent);
        WRITE_ONCE(queue->rskq_accept_head, req->dl_next);
        if (queue->rskq_accept_head == NULL)
            queue->rskq_accept_tail = NULL;
    }
    spin_unlock_bh(&queue->rskq_lock);
    return req;
}
Run Code Online (Sandbox Code Playgroud)

sk_acceptq_removed减少等待接受的套接字队列的长度sk_ack_backlog

static inline void sk_acceptq_removed(struct sock *sk)
{
    WRITE_ONCE(sk->sk_ack_backlog, sk->sk_ack_backlog - 1);
}
Run Code Online (Sandbox Code Playgroud)

我认为提问者完全理解这一点。现在让我们看看当收到 SYN 以及 3WH 的最终 ACK 到达时会发生什么。

首先收到SYN。再次,我们假设 TFO 和 SYN cookie 没有发挥作用,并查看最常见的路径(至少在存在 SYN 洪水时不会)。

通过调用然后调用响应 SYN,在tcp_conn_request存储连接请求(不是完整的套接字)的位置(我们很快就会看到在哪里)inet_csk_reqsk_queue_hash_add处理send_synackSYN:

int tcp_conn_request(struct request_sock_ops *rsk_ops,
             const struct tcp_request_sock_ops *af_ops,
             struct sock *sk, struct sk_buff *skb)
{

   [...] 

   if (!want_cookie)
            inet_csk_reqsk_queue_hash_add(sk, req,
                tcp_timeout_init((struct sock *)req));
   af_ops->send_synack(sk, dst, &fl, req, &foc,
                    !want_cookie ? TCP_SYNACK_NORMAL :
                           TCP_SYNACK_COOKIE);

   [...]

   return 0;

   [...]
}
Run Code Online (Sandbox Code Playgroud)

inet_csk_reqsk_queue_hash_add调用reqsk_queue_hash_reqinet_csk_reqsk_queue_added存储请求。

void inet_csk_reqsk_queue_hash_add(struct sock *sk, struct request_sock *req,
                   unsigned long timeout)
{
    reqsk_queue_hash_req(req, timeout);
    inet_csk_reqsk_queue_added(sk);
}
Run Code Online (Sandbox Code Playgroud)

reqsk_queue_hash_req将请求放入 ehash 中

static void reqsk_queue_hash_req(struct request_sock *req,
                 unsigned long timeout)
{
    [...]

    inet_ehash_insert(req_to_sk(req), NULL);

    [...]
}

Run Code Online (Sandbox Code Playgroud)

然后用以下inet_csk_reqsk_queue_added命令调用:reqsk_queue_addedicsk_accept_queue

static inline void inet_csk_reqsk_queue_added(struct sock *sk)
{
    reqsk_queue_added(&inet_csk(sk)->icsk_accept_queue);
}
Run Code Online (Sandbox Code Playgroud)

这增加了qlen(不是sk_ack_backlog):

static inline void reqsk_queue_added(struct request_sock_queue *queue)
{
    atomic_inc(&queue->young);
    atomic_inc(&queue->qlen);
}
Run Code Online (Sandbox Code Playgroud)

ehash 是存储所有 ESTABLISHED 和 TIMEWAIT 套接字的位置,最近也是存储 SYN“队列”的位置。

请注意,将到达的连接请求存储在适当的队列中实际上没有任何意义。它们的顺序无关(最终的 ACK 可以按任何顺序到达),并且通过将它们移出侦听套接字,无需锁定侦听套接字来处理最终的 ACK。

请参阅此提交以获取影响此更改的代码。

最后,我们可以看到请求从 ehash 中删除并作为完整套接字添加到接受队列中。

3WH 的最终 ACK 被处理,tcp_check_req创建一个完整的子套接字,然后调用inet_csk_complete_hashdance

struct sock *tcp_check_req(struct sock *sk, struct sk_buff *skb,
               struct request_sock *req,
               bool fastopen, bool *req_stolen)
{

    [...]

    /* OK, ACK is valid, create big socket and
     * feed this segment to it. It will repeat all
     * the tests. THIS SEGMENT MUST MOVE SOCKET TO
     * ESTABLISHED STATE. If it will be dropped after
     * socket is created, wait for troubles.
     */
    child = inet_csk(sk)->icsk_af_ops->syn_recv_sock(sk, skb, req, NULL,
                             req, &own_req);

    [...]

    return inet_csk_complete_hashdance(sk, child, req, own_req);

    [...]

}
Run Code Online (Sandbox Code Playgroud)

然后根据请求和子对象inet_csk_complete_hashdance调用and :inet_csk_reqsk_queue_dropreqsk_queue_removedinet_csk_reqsk_queue_add

struct sock *inet_csk_complete_hashdance(struct sock *sk, struct sock *child,
                     struct request_sock *req, bool own_req)
{
    if (own_req) {
        inet_csk_reqsk_queue_drop(sk, req);
        reqsk_queue_removed(&inet_csk(sk)->icsk_accept_queue, req);
        if (inet_csk_reqsk_queue_add(sk, req, child))
            return child;
    }
    [...]
}
Run Code Online (Sandbox Code Playgroud)

inet_csk_reqsk_queue_drop调用reqsk_queue_unlink,它从 ehash 中删除请求,并reqsk_queue_removed减少 qlen:

void inet_csk_reqsk_queue_drop(struct sock *sk, struct request_sock *req)
{
    if (reqsk_queue_unlink(req)) {
        reqsk_queue_removed(&inet_csk(sk)->icsk_accept_queue, req);
        reqsk_put(req);
    }
}
Run Code Online (Sandbox Code Playgroud)

最后,inet_csk_reqsk_queue_add将完整的套接字添加到接受队列中。

struct sock *inet_csk_reqsk_queue_add(struct sock *sk,
                      struct request_sock *req,
                      struct sock *child)
{
    struct request_sock_queue *queue = &inet_csk(sk)->icsk_accept_queue;

    spin_lock(&queue->rskq_lock);
    if (unlikely(sk->sk_state != TCP_LISTEN)) {
        inet_child_forget(sk, req, child);
        child = NULL;
    } else {
        req->sk = child;
        req->dl_next = NULL;
        if (queue->rskq_accept_head == NULL)
            WRITE_ONCE(queue->rskq_accept_head, req);
        else
            queue->rskq_accept_tail->dl_next = req;
        queue->rskq_accept_tail = req;
        sk_acceptq_added(sk);
    }
    spin_unlock(&queue->rskq_lock);
    return child;
}
Run Code Online (Sandbox Code Playgroud)

TL;DR 它位于 ehash 中,此类 SYN 的数量是qlen(而不是sk_ack_backlog,它保存接受队列中的套接字数量)。