For 循环中的 OpenMP 并行部分 (C++) - 开销

Question

For 循环中的 OpenMP 并行部分 (C++) - 开销

Jos*_*a M 5 c++ multithreading openmp sections

我一直在研究量子模拟。每个时间步计算一个势函数，迭代求解器的一个步骤，然后进行一系列测量。这三个过程很容易并行化，而且我已经确保它们不会相互干扰。此外，还有一些相当简单的东西，但不应该并行完成。设置概要如下所示。

omp_set_num_threads(3);
#pragma omp parallel
{
    while (notDone) {
        #pragma omp sections
        {
            #pragma omp section
            {
                createPotential();
            }
            #pragma omp section
            {
                iterateWaveFunction();
            }
            #pragma omp section
            {
                takeMeasurements();
            }
        }
        #pragma omp single
        {
            doSimpleThings();
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

代码工作得很好！我看到速度增加，主要与与 TDSE 求解器一起运行的测量相关（速度增加约 30%）。然而，程序从使用大约 10% 的 CPU（大约一个线程）到 35%（大约三个线程）。如果势函数、TDSE 迭代器和测量花费的时间相同，这将是有意义的，但它们没有。基于速度的提高，我预计 CPU 使用率将达到 15%。

我有一种感觉，这与在 while 循环中运行这三个线程的开销有关。更换

#pragma omp sections

Run Code Online (Sandbox Code Playgroud)

和

#pragma omp parallel sections

Run Code Online (Sandbox Code Playgroud)

（并在循环之前省略两行）没有任何改变。有没有更有效的方法来运行这个设置？我不确定线程是否不断被重新创建，或者线程是否在等待其他线程完成时占用了整个核心。如果我将线程数从 3 增加到任何其他数字，程序将使用它想要的尽可能多的资源（可能是所有 CPU）并且不会获得性能提升。

Answer 1

Jos*_*a M 1

我尝试了很多选项，包括使用任务而不是部分（具有相同的结果）、切换编译器等。根据 Qubit 的建议，我还尝试使用 std::async。这就是解决方案！CPU 使用率从大约 50% 下降到 30%（这是在与原始帖子不同的计算机上，因此数字不同 - 基本上 1.6 倍的 CPU 使用率带来了 1.5 倍的性能增益）。这更接近我对这台计算机的预期。

作为参考，这里是新的代码大纲：

void SimulationManager::runParallel(){
    auto rV = &SimulationManager::createPotential();
    auto rS = &SimulationManager::iterateWaveFunction();
    auto rM = &SimulationManager::takeMeasurements();
    std::future<int> f1, f2, f3;
    while(notDone){
        f1 = std::async(rV, this);
        f2 = std::async(rS, this);
        f3 = std::async(rM, this);
        f1.get(); f2.get(); f3.get();
        doSimpleThings();
    }
}

Run Code Online (Sandbox Code Playgroud)

使用 std::async 调用三个原始函数，然后使用未来变量 f1、f2 和 f3 将所有内容收集回单个线程并避免访问问题。

归档时间：	7 年，9 月前
查看次数：	775 次
最近记录：	7 年，9 月前