我在所有等级上都有一个相同长度的数组(让我们假设10).数组中的某些值包含处理器的等级.例如 ...
Proc 1: [1 0 0 0 0 1 0 0 0 1]
Proc 2: [0 2 2 0 0 0 0 2 2 0]
Proc 3: [0 0 0 3 3 0 3 0 0 0]
Run Code Online (Sandbox Code Playgroud)
现在,所有处理器以下列数组结束的最有效方式(使用MPI-2)是什么
[1 2 2 3 3 1 3 2 2 1]
Run Code Online (Sandbox Code Playgroud)
这可以被认为是所有数组的总和(分布在所有等级上).性能很重要,因为我想在1K +内核上快速完成这项工作.
mpi ×1