Nit*_*ati 6 c++ parallel-processing pragma openmp
我必须添加两个向量,并将串行性能与并行性能进行比较。但是,我的并行代码似乎比串行代码执行时间更长。
您能否建议更改以使并行代码更快?
#include <iostream>
#include <time.h>
#include "omp.h"
#define ull unsigned long long
using namespace std;
void parallelAddition (ull N, const double *A, const double *B, double *C)
{
ull i;
#pragma omp parallel for shared (A,B,C,N) private(i) schedule(static)
for (i = 0; i < N; ++i)
{
C[i] = A[i] + B[i];
}
}
int main(){
ull n = 100000000;
double* A = new double[n];
double* B = new double[n];
double* C = new double[n];
double time_spent = 0.0;
for(ull i = 0; i<n; i++)
{
A[i] = 1;
B[i] = 1;
}
//PARALLEL
clock_t begin = clock();
parallelAddition(n, &A[0], &B[0], &C[0]);
clock_t end = clock();
time_spent += (double)(end - begin) / CLOCKS_PER_SEC;
cout<<"time elapsed in parallel : "<<time_spent<<endl;
//SERIAL
time_spent = 0.0;
for(ull i = 0; i<n; i++)
{
A[i] = 1;
B[i] = 1;
}
begin = clock();
for (ull i = 0; i < n; ++i)
{
C[i] = A[i] + B[i];
}
end = clock();
time_spent += (double)(end - begin) / CLOCKS_PER_SEC;
cout<<"time elapsed in serial : "<<time_spent;
return 0;
}
Run Code Online (Sandbox Code Playgroud)
这些是结果:
并行经过的时间: 0.824808
连续经过的时间: 0.351246
我在另一个线程上读到了一些因素,例如产生线程,分配资源。但是我不知道该怎么做才能获得预期的结果。
编辑:
谢谢!@zulan和@Daniel Langr的答案实际上有所帮助!
我用omp_get_wtime()代替clock()。恰好是clock()测量所有线程的累积时间,而累积时间omp_get_wtime()可用于测量从任意点到某个其他任意点所花费的时间
这个答案也很好地回答了这个查询:https : //stackoverflow.com/a/10874371/4305675
这是固定代码:
void parallelAddition (ull N, const double *A, const double *B, double *C)
{
....
}
int main(){
....
//PARALLEL
double begin = omp_get_wtime();
parallelAddition(n, &A[0], &B[0], &C[0]);
double end = omp_get_wtime();
time_spent += (double)(end - begin);
cout<<"time elapsed in parallel : "<<time_spent<<endl;
....
//SERIAL
begin = omp_get_wtime();
for (ull i = 0; i < n; ++i)
{
C[i] = A[i] + B[i];
}
end = omp_get_wtime();
time_spent += (double)(end - begin);
cout<<"time elapsed in serial : "<<time_spent;
return 0;
}
Run Code Online (Sandbox Code Playgroud)
更改后的结果:
并行经过的时间: 0.204763
连续经过的时间: 0.351711
有多种因素会影响您的测量:
omp_get_wtime()按照@zulan的建议使用,否则,您实际上可以计算组合的CPU时间,而不是墙时间。
线程处理有一些开销,通常无法为简短的计算带来回报。您可能需要使用更高的值n。
C在运行之前,“触摸” 数组中的数据parallelAddition。否则,实际上是从OS内部分配内存页parallelAddition。因为C ++ 11简单的办法:double* C = new double[n]{};。
我尝试将您的程序设置n为1G,最后一次更改将parallelAddition2个线程的运行时间从1.54 减少到0.94 [s]。串行版本花费了1.83 [s],因此,具有2个线程的加速比是1.95,这非常接近理想水平。
其他注意事项:
通常,如果您分析了某些内容,请确保该程序具有可观察到的效果。否则,编译器可能会浪费大量代码。您添加的数组没有可观察到的效果。
在参数中添加某种形式的restrict关键字C。没有它,编译器可能无法应用向量化。
如果您使用的是多插槽系统,请注意线程的亲和力和NUMA效果。在我的双插槽系统上,将线程限制为单个NUMA节点(numactl -N 0 -m 0)时,用于2个线程的并行版本的运行时花费0.94 [s](如上所述)。不使用numactl,则花费1.35 [s],因此是1.44倍。
| 归档时间: |
|
| 查看次数: |
101 次 |
| 最近记录: |