当*exact*是一个准备好写的套接字?

the*_*ine 7 sockets linux epoll tcp

当应用程序有大量数据(400M)写入非阻塞套接字时,write()返回EWOULDBLOCKEAGAIN发送缓冲区变满时.

当(e)轮询套接字时,我有时会在发送缓冲区中有7M空间时看到写入就绪通知,有时是20M,有时是1M.写就绪回调之间的延迟变化很大:从几毫秒到几十秒!

所以我的问题是内核何时触发了套接字的写就绪?是什么影响了写入就绪的触发?显然,只要将1B写入电线,就不会触发它.

任何帮助,将不胜感激!

我正在使用:

Ubuntu 12.04 LTS

内核3.8.0-39-通用

Arch:x86_64

编辑:此上下文中的套接字是TCP/IP套接字.

cni*_*tar 3

所以我的问题是内核到底什么时候触发套接字的写就绪?

太长;博士;只要您的套接字有足够的缓冲区空间,写入就会成功,并且epoll_wait会在默认级别触发模式下返回事件说明。如果套接字空间不足,阻塞写入器将休眠。当数据被确认释放空间时,内核将唤醒进程(或传递 epoll 事件来表示套接字可写),但前提是套接字空间不足。就像以前一样,如果只要套接字可写就没有任何变化,那么即使没有来自 TCP 的新通知,级别触发的事件也会涌入。

执行实际通知的函数是sk_write_space。这是 TCP 的成员struct sock,相关实现sk_stream_write_space位于 中stream.c

    ...
    if (skwq_has_sleeper(wq))
        wake_up_interruptible_poll(&wq->wait, EPOLLOUT |
                    EPOLLWRNORM | EPOLLWRBAND);
    if (wq && wq->fasync_list && !(sk->sk_shutdown & SEND_SHUTDOWN))
        sock_wake_async(wq, SOCK_WAKE_SPACE, POLL_OUT);
    ...
Run Code Online (Sandbox Code Playgroud)

该函数会唤醒所有可能正在等待内存的调用者。(将此与sock_def_write_space.

但是什么时候sk_write_space调用呢?有几个调用站点,但最突出的是tcp_new_spacewhich 被调用 by tcp_check_space,它被调用 by tcp_data_snd_checkwhich 是从接收路径上的一堆地方调用的。该函数有一个描述性注释

 When incoming ACK allowed to free some skb from write_queue,
 we remember this event in flag SOCK_QUEUE_SHRUNK and wake up socket
 on the exit from tcp input handler.
Run Code Online (Sandbox Code Playgroud)

tcp_check_space很有趣:

    if (sock_flag(sk, SOCK_QUEUE_SHRUNK)) {
        sock_reset_flag(sk, SOCK_QUEUE_SHRUNK);
        /* pairs with tcp_poll() */
        smp_mb();
        if (sk->sk_socket &&
            test_bit(SOCK_NOSPACE, &sk->sk_socket->flags)) {
            tcp_new_space(sk);
            ...
        }
Run Code Online (Sandbox Code Playgroud)

这里有一些相关的内容:

  1. SOCK_QUEUE_SHRUNK被定义为“写队列最近已缩小”并且被设置在传输路径上。tcp_check_space检查并清除它。
  2. SOCK_NOSPACE当我们用完缓冲区空间时,在传输路径上设置。

所有这一切的结论是,tcp_check_space除非套接字空间不足,否则避免发送事件。

关于什么tcp_data_snd_check?在稳定状态期间,最相关的调用位于tcp_rcv_established

  1. 快速路径: https://github.com/torvalds/linux/blob/master/net/ipv4/tcp_input.c#L5575

  2. 几乎快速的路径: https://github.com/torvalds/linux/blob/master/net/ipv4/tcp_input.c#L5618

  3. 慢速路径: https://github.com/torvalds/linux/blob/master/net/ipv4/tcp_input.c#L5658

所有这些信号数据均已成功确认。


TCP 中还有其他调用者sk_write_spacedo_tcp_sendpagestcp_sendmsg_locked在错误路径上调用它以确保唤醒调用者。do_tcp_setsockopt设置时调用它TCP_NOTSENT_LOWAT