use*_*680 6 c++ performance stl openmp
我试图平行我正在使用的程序并得到以下问题.如果多个线程需要在同一个向量上读取/写入但向量的不同元素,我会失去性能吗?我感觉这就是我的程序在平行化时几乎没有得到更快的原因.请使用以下代码:
#include <vector>
int main(){
vector<double> numbers;
vector<double> results(10);
double x;
//write 10 values in vector numbers
for (int i =0; i<10; i++){
numbers.push_back(cos(i));
}
#pragma omp parallel for \
private(x) \
shared(numbers, results)
for(int j = 0; j < 10; j++){
x = 2 * numbers[j] + 5;
#pragma omp critical // do I need this ?
{
results[j] = x;
}
}
return 0;
}
Run Code Online (Sandbox Code Playgroud)
显然,实际的程序执行的操作要昂贵得多,但这个例子只能解释我的问题.那么for循环可以快速完全并行完成,还是不同的线程必须等待彼此,因为一次只有一个线程可以访问矢量号,尽管它们都是读取矢量的不同元素?
与写操作相同的问题:我是否需要关键编译指示或者没有问题,因为每个线程写入向量结果的不同元素?我很满意我能得到的每一个帮助,也很高兴知道是否有更好的方法来做到这一点(也许根本不使用矢量,但简单的数组和指针等?)我也读过矢量不是在某些情况下线程安全,建议使用指针:OpenMP和STL向量
非常感谢你的帮助!
我想大多数线程中的向量问题都是如果它必须调整大小,然后它将向量的全部内容复制到内存中的新位置(一个更大的已分配块),如果你并行访问它然后你只是试图读取一个已被删除的对象.
如果你没有调整数组的大小,那么我从来没有遇到过对向量的并发读写的任何麻烦(显然,只要我没有写两次相同的元素)
至于缺乏性能提升,openmp临界区将使程序速度降低到可能与仅使用1个线程相同(取决于在关键部分之外实际完成的程度)
您可以删除关键部分声明(考虑上述条件).
你没有得到加速,正是因为关键的sectino,这是多余的,因为相同的元素永远不会同时被修改.删除关键部分,它会工作得很好.
您也可以使用调度策略,因为如果内存访问不是线性的(在您给出的示例中),则线程可能会争用缓存(在同一缓存行中写入元素).OTOH如果在你的情况下给出元素的数量并且循环中没有分支(因此它们将以大约相同的速度执行)static,这是默认的IIRC,应该最好地工作.
(顺便说一句,你可以x在循环内部声明以避免private(x)和shared指令暗示IIRC(我从未使用它).)