小编koi*_*ond的帖子

CPU缓存如何影响C程序的性能

我试图更多地了解 CPU 缓存如何影响性能。作为一个简单的测试，我将矩阵第一列的值与不同数量的总列数相加。

// compiled with: gcc -Wall -Wextra -Ofast -march=native cache.c
// tested with: for n in {1..100}; do ./a.out $n; done | tee out.csv
#include <assert.h>
#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>

double sum_column(uint64_t ni, uint64_t nj, double const data[ni][nj])
{
    double sum = 0.0;
    for (uint64_t i = 0; i < ni; ++i) {
        sum += data[i][0];
    }
    return sum;
}

int compare(void const* _a, void const* _b)
{
    double const a = *((double*)_a);
    double …

Run Code Online (Sandbox Code Playgroud)

c performance cpu-cache

koi*_*ond

lucky-day

16
推荐指数

1
解决办法

1144
查看次数

并行嵌套循环中的数据竞争

我有一个三重嵌套循环，我想并行化，但是，我遇到了数据争用问题。我很确定我需要以某种方式使用缩减，但我不太知道如何使用。

这是有问题的循环：

#pragma omp parallel for simd collapse(3)
    for (uint64 u = 0; u < nu; ++u) {
        for (uint64 e = 0; e < ne; ++e) {
            for (uint64 v = 0; v < nv; ++v) {
                uAT[u][e] += _uT[u][e][v] * wA[e][v];
            }
        }
    }

Run Code Online (Sandbox Code Playgroud)

有人可以向我解释一下，为什么这会导致数据竞争？我真的很想了解这一点，这样我将来就不会遇到这些问题。另外，这个循环可以并行吗？如果是这样，怎么办？

编辑：我怎么知道存在数据竞争？

这个循环应该完成的任务（并且它是串行完成的）是计算不连续伽辽金框架中函数的元素平均值。当我多次运行代码时，有时会得到不同的结果，尽管它应该总是产生相同的结果。产生的错误值总是小于应有的值，这就是为什么我假设某些值没有被添加。也许这张图可以更好地解释它：第三个单元格中的平均值显然是错误的（太小）。