使用 mpirun/mpiexec 运行时检测到未使用 MPI

B. *_*cke 5 c c++ mpi c++11

我正在编写一个程序(用 C++11 编写),可以选择使用 MPI 并行运行。该项目使用 CMake 进行配置,如果找不到 MPI,CMake 会自动禁用 MPI 并显示有关它的警告消息。

然而,我担心一个完全合理的用例,即用户在 HPC 集群上配置和编译程序,忘记加载 MPI 模块,并且没有注意到警告。然后,同一用户可能会尝试运行该程序,注意到mpirun未找到该程序,包括 MPI 模块,但忘记重新编译。如果用户随后使用 运行程序mpirun,这将起作用,但程序将仅运行多次而没有任何并行化,因为 MPI 在编译时被禁用。为了防止用户认为程序是并行运行的,我想让程序在这种情况下显示错误消息。

我的问题是:如何在不使用 MPI 库函数的情况下检测我的程序正在并行运行(因为 MPI 在编译时被禁用)?mpirun据我所知,只是多次启动该程序,但没有告诉它启动的进程它们正在并行运行。

我想过让程序编写一些测试文件,然后检查该文件是否已经存在,但除了由于并发问题这可能会很棘手之外,甚至无法保证会mpirun在节点上启动各种进程共享文件系统。

我还考虑过使用系统变量在两个进程之间进行通信,但据我所知,没有独立于系统的方法来执行此操作(同样,这可能会导致并发问题,因为没有办法协调之间的系统调用各种流程)。

所以目前,我已经没有想法了,我非常感谢任何可能帮助我实现这一目标的建议。首选解决方案应该独立于操作系统,尽管仅适用于 UNIX 的解决方案已经有很大帮助。

Zul*_*lan 0

基本上,您想要运行一个检测来检测您是否正在由mpirun非 MPI 代码路径中的等运行。有一个非常相似的问题:我的程序如何检测它是否是通过 mpirun 启动的,而 mpirun 已经提供了一种不可移植的解决方案。

检查 mpirun 设置的环境变量。参见例如: http://www.open-mpi.org/faq/?category =running#mpi-environmental-variables

作为另一种选择,您可以获取父进程的进程 ID及其进程名称,并将其与已知的 MPI 启动器二进制文件列表(例如orted,slurmstepd,hydra??1 )进行比较。不幸的是,所有这些都是不可移植的。

由于 MPI 标准没有明确定义启动本身,因此无法有标准的方法来检测它。

1:仅凭我的记忆,请不要照字面理解。


从用户体验的角度来看,我认为始终显示程序如何运行的清晰消息,例如:

串行运行 FancySimulator。如果您将此视为 mpirun 的一部分,请使用 FANCYSIM_MPI=True 重建 FancySimuilator。

或者

与 120 个 MPI 进程并行运行 FancySimulator。

会“解决”问题。收到 120 条乱码消息的用户有望注意到。