Linux x86-64 fork 系统调用对 C 标准 libc 文件 I/O 的奇怪行为(关键字:fork、fclose、linux)

Amm*_*izi 6 c linux fork x86-64 stdio

故事

我试图在 Linux 上诊断用 C 编写的应用程序中的错误。原来这个bug是由于在父进程中句柄仍然打开时在子进程中忘记 引起的。fcloseFILE *

文件操作只是read. 没有写操作。

情况1

该应用程序正在运行Linux 5.4.0-58-generic。在这种情况下,错误发生了。

案例二

该应用程序正在运行Linux 5.10.0-051000-generic。在这种情况下,没有错误,这正是我所期望的。

什么是错误?

fork如果fclose子进程中没有,则父进程执行随机数的系统调用。

案例2肯定

我完全知道忘记 fclose会导致内存泄漏,但是:

  • 我认为,只是在这种情况下,并不是绝对必要的,因为子进程会尽快退出,而我使用的退出exit(3)不是_exit(2)
  • 奇怪的是,为什么在子进程中忘记 fclose会影响父进程?

我目前的猜测:

这是一个 Linux 内核错误,已在5.4. 然而我没有证据,但我的测试向我证明了这一点。


我已经能够通过fclose在退出之前调用子进程来修复这个应用程序错误。但是,我想知道在这种情况下实际发生了什么。所以我的问题是如何fclose在子进程中忘记影响父进程?


重现问题的非常简单的代码(附上 3 个文件)。

注意:test1.c 和 test2.c 的区别只fclose在于子进程。test2.c 不会fclose在子进程中调用。

文件测试.txt

123123123
123123123
123123123
123123123
123123123
123123123

Run Code Online (Sandbox Code Playgroud)

文件 test1.c

123123123
123123123
123123123
123123123
123123123
123123123

Run Code Online (Sandbox Code Playgroud)

文件 test2.c

#include <stdio.h>
#include <errno.h>
#include <stdlib.h>
#include <stdint.h>
#include <unistd.h>
#include <string.h>
#include <sys/wait.h>
#define TICK do { putchar('.'); fflush(stdout); } while(0)
int main() {
  char buff[1024] = {0};
  FILE *handle = fopen("test.txt", "r");

  uint32_t num_of_forks = 0;

  while (fgets(buff, 1024, handle) != NULL) {

    TICK;
    num_of_forks++;

    pid_t pid = fork();
    if (pid == -1) {
      printf("Fork error: %s\n", strerror(errno));
      continue;
    }

    if (pid == 0) {
      fclose(handle);
      exit(0);
    }
  }

  fclose(handle);
  putchar('\n');
  printf("Number of forks: %d\n", num_of_forks);
  wait(NULL);
}

Run Code Online (Sandbox Code Playgroud)

运行程序


在 Linux 5.4.0-58-generic 上运行(错误发生的地方)

看 test2 执行(bug),它导致随机数 fork syscall。

ammarfaizi2@integral:/tmp$ uname -r
5.4.0-58-generic
ammarfaizi2@integral:/tmp$ gcc --version
gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0
Copyright (C) 2019 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

ammarfaizi2@integral:/tmp$ ldd --version
ldd (Ubuntu GLIBC 2.31-0ubuntu9.1) 2.31
Copyright (C) 2020 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Roland McGrath and Ulrich Drepper.
ammarfaizi2@integral:/tmp$ cat test.txt
123123123
123123123
123123123
123123123
123123123
123123123
ammarfaizi2@integral:/tmp$ diff test1.c test2.c
27c27
<       fclose(handle);
---
>       // fclose(handle);
ammarfaizi2@integral:/tmp$ gcc test1.c -o test1 && gcc test2.c -o test2
ammarfaizi2@integral:/tmp$ ./test1
......
Number of forks: 6
ammarfaizi2@integral:/tmp$ ./test1
......
Number of forks: 6
ammarfaizi2@integral:/tmp$ ./test1
......
Number of forks: 6
ammarfaizi2@integral:/tmp$ ./test2
..................................................................................................................................................................................
Number of forks: 178
ammarfaizi2@integral:/tmp$ ./test2
............................................................................................................................................................................................................................................................................................................................................................
Number of forks: 348
ammarfaizi2@integral:/tmp$ ./test2
...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
Number of forks: 475
ammarfaizi2@integral:/tmp$ md5sum test1 test2
c32d03916b9b72546b966223837fd115  test1
f314d2135092362288a66f53b37ffa4d  test2
Run Code Online (Sandbox Code Playgroud)

在 Linux 5.10.0-051000-generic 上运行(相同的代码,完全没有错误)

root@esteh:/tmp# uname -r
5.10.0-051000-generic
root@esteh:/tmp# gcc --version
gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0
Copyright (C) 2019 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

root@esteh:/tmp# ldd --version
ldd (Ubuntu GLIBC 2.31-0ubuntu9.1) 2.31
Copyright (C) 2020 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Roland McGrath and Ulrich Drepper.
root@esteh:/tmp# cat test.txt
123123123
123123123
123123123
123123123
123123123
123123123
root@esteh:/tmp# diff test1.c test2.c
27c27
<       fclose(handle);
---
>       // fclose(handle);
root@esteh:/tmp# gcc test1.c -o test1 && gcc test2.c -o test2
root@esteh:/tmp# ./test1
......
Number of forks: 6
root@esteh:/tmp# ./test1
......
Number of forks: 6
root@esteh:/tmp# ./test1
......
Number of forks: 6
root@esteh:/tmp# ./test2
......
Number of forks: 6
root@esteh:/tmp# ./test2
......
Number of forks: 6
root@esteh:/tmp# ./test2
......
Number of forks: 6
root@esteh:/tmp# md5sum test1 test2 # Make sure the files are identical with case 1
c32d03916b9b72546b966223837fd115  test1
f314d2135092362288a66f53b37ffa4d  test2
Run Code Online (Sandbox Code Playgroud)

概括

  • fclose在子进程中忘记Linux 5.4.0-58-generic会导致父进程中的 fork 系统调用变得奇怪。
  • 上似乎不存在该错误Linux 5.10.0-051000-generic

Amm*_*izi 4

感谢@Jonathan Leffler!

这个问题与Why does fork my process导致文件被无限读取的问题重复

缺少的知识,为什么没有出现这个bug,Linux 5.10.0-051000-generic结果发现它与内核无关。


原来是父进程与子进程竞争(与内核无关)。

  • 注意:如果句柄是由父进程创建的,则更改子进程中文件句柄的偏移量也会更改父进程中的偏移量。
  • fclose(3)如果childs中没有,子进程lseek(2)一调用就会调用exit(3)。这将导致父进程重新读取相同的偏移量,因为子进程lseek(2)使用负偏移量 + 进行调用SEEK_CUR

(我不知道为什么有必要lseek(2)在退出之前调用,这可能已经在@Jonathan Leffler的答案中进行了解释,我没有仔细阅读整个答案)。

  • 如果父进程在子进程调用之前完成读取整个文件lseek(2)。那么就完全没有问题了。

另外,正如 @iBug 提到的,但请记住,进程调度可能会使结果不可预测,除非您实现某种“同步”。

我使用的机器上的父进程Linux 5.10.0-051000-generic只是一个幸运的进程,它总是在子进程调用之前首先读取整个文件lseek(2)

我尝试向文件添加更多行(达到 150 行),因此父级文件的读取速度通常会比读取 6 行慢,并且会发生未定义的行为

测试结果:https://gist.githubusercontent.com/ammarfaizi2/b72bd03fcc13779f96b8bbeef9253e66/raw/da1eff4ed5434aa51929e5c810d54de8ffe15548/test2_fix.txt