确保混合 MPI/OpenMP 在不同的内核上运行每个 OpenMP 线程

Question

确保混合 MPI/OpenMP 在不同的内核上运行每个 OpenMP 线程

我正在尝试运行混合 OpenMP/MPI 作业，以便 OpenMP 线程由内核分隔（每个内核只有一个线程）。我已经看到其他使用 numa-ctl 和 bash 脚本来设置环境变量的答案，我不想这样做。

我希望只能通过在命令行上设置 OMP_NUM_THREADS 和或 OMP_PROC_BIND 和 mpiexec 选项来做到这一点。我尝试了以下方法 - 假设我想要 2 个 MPI 进程，每个进程都有 2 个 OpenMP 线程，并且每个线程都在不同的内核上运行，所以我总共需要 4 个内核。

OMP_PROC_BIND=true OMP_PLACES=cores OMP_NUM_THREADS=2 mpiexec -n 2

Run Code Online (Sandbox Code Playgroud)

这将拆分作业，以便只有两个进程在工作，并且它们都在同一个 CPU 上，因此它们每个只使用大约 25% 的 CPU。如果我尝试：

OMP_PROC_BIND=false OMP_PLACES=cores OMP_NUM_THREADS=2 mpiexec -n 2

Run Code Online (Sandbox Code Playgroud)

然后，我只得到两个独立的 MPI 进程，每个进程都以 100% 或超过 100% 的 CPU 功率运行，根据 top。这似乎没有显示用于 OpenMP 线程的不同内核。

如何强制系统将单独的线程放在单独的内核上？

仅供参考，lscpu 打印：

-CPU(s):                48
-On-line CPU(s) list:   0-47
-Thread(s) per core:    2
-Core(s) per socket:    12
-Socket(s):             2
-NUMA node(s):          2

Run Code Online (Sandbox Code Playgroud)

Answer 1

nom*_*oma 6

实际上，我希望你的第一个例子能够工作。此处的设置OMP_PROC_BIND=true很重要，以便 OpenMP 在固定其线程时保持在 MPI 进程的 CPU 绑定内。

根据批处理系统和 MPI 实现，可能有非常独特的方法来设置这些东西。

此外，超线程，或者一般来说每个核心的多个硬件线程，在 Linux 中都显示为“核心”，可能是问题的一部分，因为当两个进程在一个核心的两个超线程上运行时，您永远不会看到 200%。

这是一个通用解决方案，我在为某些系统上的某些 MPI 和某些 OpenMP 实现计算这些内容时使用。Cray 有一个文档，其中包含一个非常有用的程序，可以快速解决这些问题，它被称为xthi.cgoogle文件名或从此处粘贴（不确定将其粘贴到此处是否合法...）。编译：

mpicc xthi.c -fopenmp -o xthi

Run Code Online (Sandbox Code Playgroud)

现在我们可以看到到底发生了什么，例如在具有超线程和 Intel MPI（基于 MPICH）的 2x 8 核 Xeon 上，我们得到：

$ OMP_PROC_BIND=true OMP_PLACES=cores OMP_NUM_THREADS=2 mpiexec -n 2 ./xthi

Hello from rank 0, thread 0, on localhost. (core affinity = 0,16)
Hello from rank 0, thread 1, on localhost. (core affinity = 1,17)
Hello from rank 1, thread 0, on localhost. (core affinity = 8,24)
Hello from rank 1, thread 1, on localhost. (core affinity = 9,25)

Run Code Online (Sandbox Code Playgroud)

如您所见，核心意味着一个核心的所有超线程。请注意默认情况下如何mpirun将其固定在不同的插座上。这样，OMP_PLACES=threads每个核心就有一个线程：

$ OMP_PROC_BIND=true OMP_PLACES=threads OMP_NUM_THREADS=2 mpiexec -n 2 ./xthi
Hello from rank 0, thread 0, on localhost. (core affinity = 0)
Hello from rank 0, thread 1, on localhost. (core affinity = 1)
Hello from rank 1, thread 0, on localhost. (core affinity = 8)
Hello from rank 1, thread 1, on localhost. (core affinity = 9)

Run Code Online (Sandbox Code Playgroud)

通过OMP_PROC_BIND=false（你的第二个例子），我得到：

$ OMP_PROC_BIND=false OMP_PLACES=cores OMP_NUM_THREADS=2 mpiexec -n 2 ./xthi
Hello from rank 0, thread 0, on localhost. (core affinity = 0-7,16-23)
Hello from rank 0, thread 1, on localhost. (core affinity = 0-7,16-23)
Hello from rank 1, thread 0, on localhost. (core affinity = 8-15,24-31)
Hello from rank 1, thread 1, on localhost. (core affinity = 8-15,24-31)

Run Code Online (Sandbox Code Playgroud)

在这里，每个 OpenMP 线程都获得一个完整的套接字，因此 MPI 等级仍然在不同的资源上运行。然而，一个进程内的 OpenMP 线程可能会被操作系统跨所有内核进行疯狂调度。这与我的测试系统上的设置相同OMP_NUM_THREADS=2。

同样，这可能取决于特定的 OpenMP 和 MPI 实现和版本，但我认为您可以通过上面的描述轻松弄清楚发生了什么。

希望有帮助。

归档时间：	8 年，1 月前
查看次数：	1701 次
最近记录：	5 年，9 月前