如何在消息传递系统中实现屏障?

Met*_*est 9 c c++ message-passing mpi barrier

我的理解是,一个主进程向所有其他进程发送消息.返回的所有其他进程都会向主进程发送消息.这是否足以让障碍工作?如果没有,那还需要什么呢?

Com*_*sMS 11

我们来看看OpenMPI的屏障实现.虽然其他实现可能略有不同,但一般通信模式应该相同.

首先要注意的是,MPI的障碍没有设置成本:到达MPI_Barrier呼叫的进程将阻止,直到该组的所有其他成员也呼叫MPI_Barrier.请注意,MPI不要求他们到达同一个呼叫,只需要拨打任何电话MPI_Barrier.因此,由于每个进程已经知道该组中的节点总数,因此不需要分发额外的状态来初始化该呼叫.

现在,让我们看一些代码:

/*
 * Copyright (c) 2004-2005 The Trustees of Indiana University and Indiana
 *                         University Research and Technology
 *                         Corporation.  All rights reserved.
 * Copyright (c) 2004-2005 The University of Tennessee and The University
 *                         of Tennessee Research Foundation.  All rights
 *                         reserved.
 * Copyright (c) 2004-2005 High Performance Computing Center Stuttgart, 
 *                         University of Stuttgart.  All rights reserved.
 * Copyright (c) 2004-2005 The Regents of the University of California.
 *                         All rights reserved.
 * Copyright (c) 2012      Oak Ridge National Labs.  All rights reserved.
 * [...]
 */

[...]

/*
 *  barrier_intra_lin
 *
 *  Function:   - barrier using O(N) algorithm
 *  Accepts:    - same as MPI_Barrier()
 *  Returns:    - MPI_SUCCESS or error code
 */
int
mca_coll_basic_barrier_intra_lin(struct ompi_communicator_t *comm,
                                 mca_coll_base_module_t *module)
{
    int i;
    int err;
    int size = ompi_comm_size(comm);
    int rank = ompi_comm_rank(comm);
Run Code Online (Sandbox Code Playgroud)

首先,所有节点(除了排名为0的节点,根节点)发送一个通知,表明它们已到达根节点的屏障:

    /* All non-root send & receive zero-length message. */

    if (rank > 0) {
        err =
            MCA_PML_CALL(send
                         (NULL, 0, MPI_BYTE, 0, MCA_COLL_BASE_TAG_BARRIER,
                          MCA_PML_BASE_SEND_STANDARD, comm));
        if (MPI_SUCCESS != err) {
            return err;
        }
Run Code Online (Sandbox Code Playgroud)

之后他们阻止等待来自root的通知:

        err =
            MCA_PML_CALL(recv
                         (NULL, 0, MPI_BYTE, 0, MCA_COLL_BASE_TAG_BARRIER,
                          comm, MPI_STATUS_IGNORE));
        if (MPI_SUCCESS != err) {
            return err;
        }
    }
Run Code Online (Sandbox Code Playgroud)

根节点实现通信的另一端.首先它阻塞直到它收到n-1通知(一个来自组中的每个节点,除了他自己,因为他已经在屏障呼叫中):

else {
        for (i = 1; i < size; ++i) {
            err = MCA_PML_CALL(recv(NULL, 0, MPI_BYTE, MPI_ANY_SOURCE,
                                    MCA_COLL_BASE_TAG_BARRIER,
                                    comm, MPI_STATUS_IGNORE));
            if (MPI_SUCCESS != err) {
                return err;
            }
        }
Run Code Online (Sandbox Code Playgroud)

一旦所有通知到达,它就会发出每个节点都在等待的消息,表明每个人都已经到达障碍,之后它会自行离开屏障:

        for (i = 1; i < size; ++i) {
            err =
                MCA_PML_CALL(send
                             (NULL, 0, MPI_BYTE, i,
                              MCA_COLL_BASE_TAG_BARRIER,
                              MCA_PML_BASE_SEND_STANDARD, comm));
            if (MPI_SUCCESS != err) {
                return err;
            }
        }
    }

    /* All done */

    return MPI_SUCCESS;
}
Run Code Online (Sandbox Code Playgroud)

因此,通信模式首先是n:1从所有节点到根,然后是1:n从根返回到所有节点.为了避免带有请求的根节点过载,OpenMPI允许使用基于树的通信模式,但基本思路是相同的:所有节点在进入屏障时通知根,而根聚合结果并在通知后通知每个人准备继续.

  • 我对这是一个 O(N) 算法感到惊讶,因此我查找了当前的实现(2022 年 6 月):现在使用建议的基于树的模式是 O(lg N)。 (2认同)