减少OpenMP中的数组

use*_*902 27 c++ parallel-processing openmp reduction

我试图并行化以下程序,但不知道如何减少数组.我知道不可能这样做,但还有其他选择吗?谢谢.(我添加了对m的减少,这是错误的,但希望就如何做到这一点提出建议.)

#include <iostream>
#include <stdio.h>
#include <time.h>
#include <omp.h>
using namespace std;

int main ()
{
  int A [] = {84, 30, 95, 94, 36, 73, 52, 23, 2, 13};
  int S [10];

  time_t start_time = time(NULL);
  #pragma omp parallel for private(m) reduction(+:m)
  for (int n=0 ; n<10 ; ++n ){
    for (int m=0; m<=n; ++m){
      S[n] += A[m];
    }
  }
  time_t end_time = time(NULL);
  cout << end_time-start_time;

  return 0;
}
Run Code Online (Sandbox Code Playgroud)

Z b*_*son 28

是的,可以使用OpenMP进行数组缩减.在Fortran中,它甚至可以构建它.在C/C++中,你必须自己做.这有两种方法.

第一种方法S为每个线程制作私有版本,并行填充它们,然后将它们合并到S一个关键部分(参见下面的代码).第二种方法使得数组具有10*nthreads的维度.并行填充此数组,然后将其合并到S不使用临界区.第二种方法要复杂得多,如果不小心,可能会出现缓存问题,特别是在多插槽系统上.有关更多详细信息,请参阅此填充直方图(数组缩减)与OpenMP并行,而不使用临界区

第一种方法

int A [] = {84, 30, 95, 94, 36, 73, 52, 23, 2, 13};
int S [10] = {0};
#pragma omp parallel
{
    int S_private[10] = {0};
    #pragma omp for
    for (int n=0 ; n<10 ; ++n ) {
        for (int m=0; m<=n; ++m){
            S_private[n] += A[m];
        }
    }
    #pragma omp critical
    {
        for(int n=0; n<10; ++n) {
            S[n] += S_private[n];
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

第二种方法

int A [] = {84, 30, 95, 94, 36, 73, 52, 23, 2, 13};
int S [10] = {0};
int *S_private;
#pragma omp parallel
{
    const int nthreads = omp_get_num_threads();
    const int ithread = omp_get_thread_num();

    #pragma omp single 
    {
        S_private = new int[10*nthreads];
        for(int i=0; i<(10*nthreads); i++) S_private[i] = 0;
    }
    #pragma omp for
    for (int n=0 ; n<10 ; ++n )
    {
        for (int m=0; m<=n; ++m){
            S_private[ithread*10+n] += A[m];
        }
    }
    #pragma omp for
    for(int i=0; i<10; i++) {
        for(int t=0; t<nthreads; t++) {
            S[i] += S_private[10*t + i];
        }
    }
}
delete[] S_private;
Run Code Online (Sandbox Code Playgroud)

  • 从OpenMP 4.5开始,现在可以减少C/C++中的数组.请参阅我对原帖的评论. (2认同)

dre*_*ash 15

由于没有提到其他答案,我添加这个答案。

我正在尝试并行化以下程序,但不知道如何减少数组。我知道不可能这样做,但是有没有其他选择?

使用OpenMP 4.5 ,您可以使用 pragmas 减少数组,即:

#pragma omp parallel for reduction(+:S)
Run Code Online (Sandbox Code Playgroud)

一个完整的运行示例:

#define S_SIZE 10
#include <stdio.h>
#include <time.h>
#include <omp.h>
int main ()
{
  int A [] = {84, 30, 95, 94, 36, 73, 52, 23, 2, 13};
  int S [S_SIZE] = {0};

  #pragma omp parallel for reduction(+:S[:S_SIZE])
  for (int n=0 ; n<S_SIZE ; ++n ){
    for (int m=0; m<=n; ++m){
      S[n] += A[m];
    }
  }
  int expected_output [] = {84, 114, 209, 303, 339, 412, 464, 487, 489, 502};   
  for(int i = 0; i < S_SIZE; i++){
      if(S[i] == expected_output[i])
        printf("%d\n", S[i]);
     else
       printf("ERROR! it should have been %d instead of %d\n", expected_output[i], S[i]);
  }
  
  return 0;
}
Run Code Online (Sandbox Code Playgroud)

输出:

84
114
209
303
339
412
464
487
489
502
Run Code Online (Sandbox Code Playgroud)


Nam*_*ose 9

关于Zboson的答案,我有两点评论:
1.方法1当然是正确的但是减少循环实际上是串行运行的,因为#pragma omp critical当然是必要的,因为部分矩阵是每个线程的局部矩阵并且相应的减少具有由矩阵完成的线程.
2.方法2:初始化循环可以移动到单个部分之外,因此可以并行化.

以下程序使用openMP v4.0用户定义的简化工具实现 数组缩减:

/* Compile with:
     gcc -Wall -fopenmp -o ar ar.c
   Run with:
     OMP_DISPLAY_ENV=TRUE OMP_NUM_THREADS=10 OMP_NESTED=TRUE ./ar
*/
#include <stdio.h>
#include <omp.h>
struct m10x1 {int v[10];};
int A [] =       {84, 30, 95, 94, 36, 73, 52, 23, 2, 13};  
struct m10x1 S = {{ 0,  0,  0,  0,  0,  0,  0,  0, 0,  0}};
int n,m=0;

void print_m10x1(struct m10x1 x){
  int i;
  for(i=0;i<10;i++) printf("%d ",x.v[i]);
  printf("\n");
}

struct m10x1 add_m10x1(struct m10x1 x,struct m10x1 y){
  struct m10x1 r ={{ 0,  0,  0,  0,  0,  0,  0,  0, 0,  0}};
  int i;
  for (i=0;i<10;i++) r.v[i]=x.v[i]+y.v[i];
  return r;
}

#pragma omp declare reduction(m10x1Add: struct m10x1: \
omp_out=add_m10x1(omp_out, omp_in)) initializer( \
omp_priv={{ 0,  0,  0,  0,  0,  0,  0,  0, 0,  0}} )

int main ()
{
  #pragma omp parallel for reduction(m10x1Add: S)
  for ( n=0 ; n<10 ; ++n )
    {
      for (m=0; m<=n; ++m){
        S.v[n] += A[m];
      }
    }
  print_m10x1(S);
}
Run Code Online (Sandbox Code Playgroud)

这是按照OpenMP 4.0功能的第97页上的复数减少示例逐字记录的.

虽然并行版本可以正常工作,但可能存在性能问题,我没有调查过:

  1. add_m10x1输入和输出按值传递.
  2. add_m10x1中的循环是串行运行的.

所谓的"性能问题"是我自己制作的,不介绍它们是完全直截了当的:

  1. add_m10x1的参数应该通过引用传递(通过C中的指针,C++中的引用)
  2. add_m10x1中的计算应该在适当的位置完成.
  3. 应将add_m10x1声明为void并删除return语句.结果通过第一个参数返回.
  4. 声明减少编译指示应该相应地修改,组合器应该只是一个函数调用而不是赋值(v4.0 specs p181第9,10行).
  5. add_m10x1中的for循环可以通过并行执行pragma并行化
  6. 应启用并行嵌套(例如,通过OMP_NESTED = TRUE)

然后代码的修改部分是:

void add_m10x1(struct m10x1 * x,struct m10x1 * y){
  int i;
  #pragma omp parallel for
  for (i=0;i<10;i++) x->v[i] += y->v[i];
}

#pragma omp declare reduction(m10x1Add: struct m10x1: \
add_m10x1(&omp_out, &omp_in)) initializer( \
omp_priv={{ 0,  0,  0,  0,  0,  0,  0,  0, 0,  0}} )
Run Code Online (Sandbox Code Playgroud)