Lwt泄漏文件描述符,不确定bug或我的代码

Edg*_*ian 7 ocaml resource-leak ocaml-lwt

(交叉发布到lwt github问题)

我已经将我的用法归结为此代码示例,这将泄漏文件描述符.

说你有:

#require "lwt.unix"

open Lwt.Infix

let echo ic oc = Lwt_io.(write_chars oc (read_chars ic))

let program =
  let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in

  let other_addr = Unix.(ADDR_INET (inet_addr_loopback, 2001)) in

  let server = Lwt_io.establish_server server_address begin fun (tcp_ic, tcp_oc) ->
      Lwt_io.with_connection other_addr begin fun (nc_ic, nc_oc) ->

        Lwt_io.printl "Created connection" >>= fun () ->
        echo tcp_ic nc_oc <&> echo nc_ic tcp_oc >>= fun () ->
        Lwt_io.printl "finished"

      end
      |> Lwt.ignore_result

    end
  in
  fst (Lwt.wait ())

let () =
  Lwt_main.run program
Run Code Online (Sandbox Code Playgroud)

然后你创建一个简单的服务器:

nc -l 2001

然后让我们启动OCaml代码 utop example.ml

然后打开一个客户端

nc localhost 2000
blah blah
^c
Run Code Online (Sandbox Code Playgroud)

然后我们看到使用lsof查看端口2000的连接

ocamlrun 71109 Edgar    6u  IPv4 0x7ff3e309cb80aead      0t0  TCP 127.0.0.1:callbook (LISTEN)
ocamlrun 71109 Edgar    7u  IPv4 0x7ff3e309c9dc8ead      0t0  TCP 127.0.0.1:callbook->127.0.0.1:54872 (CLOSE_WAIT)
Run Code Online (Sandbox Code Playgroud)

实际上,对于每种用法nc localhost 2000,我们将从CLOSE_WAITlsof使用中获得剩余记录.

最终这将导致系统耗尽文件描述符,这将令人烦恼地不会使程序崩溃,但会导致Lwt挂起.

我不知道我做错了什么或者这是一个真正的错误,无论如何这对我来说是一个严重的错误,我在10小时内用完文件描述符......

编辑:在我看来,问题是连接的一侧是关闭但另一侧不是,我会认为with_connection应该清理/关闭任何一方关闭,即时nc_icnc_oc关闭.

编辑II:我已尝试用手动关闭描述符的每一种方式Lwt_io.close,但我仍然有CLOSE_WAIT消息.

编辑III:甚至用于Lwt_unix.close给出with_connection的可选fd参数的原始fd 以及类似的错误结果.

编辑IV:最阴险的是如果我使用Lwt_daemon.daemonize,那么这个问题似乎消失了

Sta*_*tas 5

首先,不清楚为什么使用join <&>而不是选择<?>.我想如果双方中的一方想关闭它,应该关闭连接.

关于CLOSE_WAIT:它是从utop服务器到nc客户端的半封闭连接.

TCP连接由两个半连接组成,它们是独立关闭的.从nc客户端到utop服务器的连接nc由于关闭而关闭Ctrl-C.但是您必须通过关闭输出流来显式关闭服务器端的相反连接.我不确定为什么Lwt.establish_server不自动关闭它.可能,这是一个设计问题.

这适用于CentOS 7:

Lwt_io.printl "Created connection" >>= fun () ->
echo tcp_ic nc_oc <?> echo nc_ic tcp_oc >>= fun () ->
Lwt_io.close tcp_oc >>= fun () ->
Lwt_io.printl "finished"
Run Code Online (Sandbox Code Playgroud)

此外,还有一个简化的代码段来重现此问题:

#require "lwt.unix"

let program =
  let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in

  let _server = Lwt_io.establish_server server_address begin fun (ic, oc) ->
    (* Lwt_io.close oc |> Lwt.ignore_result; *) ()
  end
  in
  fst (Lwt.wait ())

let () =
  Lwt_main.run program
Run Code Online (Sandbox Code Playgroud)

运行nc localhost 2000几次以获得CLOSE_WAIT状态连接.取消注释代码以解决问题.


ant*_*ron 2

在提出这个问题时,根本问题是根本没有做出任何努力来关闭与和Lwt_io.establish_server关联的文件描述符。虽然这可以(并且应该)通过用户手动关闭它们来解决,但这是一种奇怪且意外的行为。tcp_ictcp_oc

自 Lwt 3.0.0 起可用的新Lwt_io.establish_server确实会尝试自动tcp_ic关闭tcp_oc。为了允许这一点,它的回调类型签名略有不同:回调必须返回一个承诺,您应该在不再需要tcp_ic/时解析该承诺。tcp_oc(编辑)实际上,这意味着您只需以自然的 Lwt 风格编写回调,完成最后一个 Lwt 操作将关闭通道。

新的 API 还在内部调用Lwt.async运行您的回调,因此您不必调用该回调或Lwt.ignore_result.

您仍然可以在回调中手动关闭tcp_ic和,以编写您自己的错误处理程序,该处理程序可以根据您的需要进行详细说明。第二次自动,内部关闭,不会tcp_oc对新的产生任何有害影响。Lwt_io.establish_server

新的 API 是Lwt 问题 #208中并行讨论该问题的最终结果。

如果有人想要旧的、痛苦的行为,也许是为了重现问题中的问题,旧的 API 可以在名称下使用一段时间Lwt_io.Versioned.establish_server_1