OpenMP中的共享向量

use*_*680 6 c++ performance stl openmp

我试图平行我正在使用的程序并得到以下问题.如果多个线程需要在同一个向量上读取/写入但向量的不同元素,我会失去性能吗?我感觉这就是我的程序在平行化时几乎没有得到更快的原因.请使用以下代码:

#include <vector> 

int main(){

    vector<double> numbers;
    vector<double> results(10);
    double x;

    //write 10 values in vector numbers
    for (int i =0; i<10; i++){
        numbers.push_back(cos(i));  
    } 

#pragma omp parallel for \
    private(x) \
    shared(numbers, results)
        for(int j = 0;  j < 10;  j++){

            x  =  2 * numbers[j]  +  5;  
#pragma omp critical  // do I need this ?
            {
                results[j]  =  x;     
            }
        }

    return 0;

}
Run Code Online (Sandbox Code Playgroud)

显然,实际的程序执行的操作要昂贵得多,但这个例子只能解释我的问题.那么for循环可以快速完全并行完成,还是不同的线程必须等待彼此,因为一次只有一个线程可以访问矢量号,尽管它们都是读取矢量的不同元素?

与写操作相同的问题:我是否需要关键编译指示或者没有问题,因为每个线程写入向量结果的不同元素?我很满意我能得到的每一个帮助,也很高兴知道是否有更好的方法来做到这一点(也许根本不使用矢量,但简单的数组和指针等?)我也读过矢量不是在某些情况下线程安全,建议使用指针:OpenMP和STL向量

非常感谢你的帮助!

Sir*_*Guy 7

我想大多数线程中的向量问题都是如果它必须调整大小,然后它将向量的全部内容复制到内存中的新位置(一个更大的已分配块),如果你并行访问它然后你只是试图读取一个已被删除的对象.

如果你没有调整数组的大小,那么我从来没有遇到过对向量的并发读写的任何麻烦(显然,只要我没有写两次相同的元素)

至于缺乏性能提升,openmp临界区将使程序速度降低到可能与仅使用1个线程相同(取决于在关键部分之外实际完成的程度)

您可以删除关键部分声明(考虑上述条件).


eud*_*xos 5

你没有得到加速,正是因为关键的sectino,这是多余的,因为相同的元素永远不会同时被修改.删除关键部分,它会工作得很好.

您也可以使用调度策略,因为如果内存访问不是线性的(在您给出的示例中),则线程可能会争用缓存(在同一缓存行中写入元素).OTOH如果在你的情况下给出元素的数量并且循环中没有分支(因此它们将以大约相同的速度执行)static,这是默认的IIRC,应该最好地工作.

(顺便说一句,你可以x在循环内部声明以避免private(x)shared指令暗示IIRC(我从未使用它).)