多线程程序没有加速

Vla*_*eev 11 java parallel-processing performance multithreading go

我正在使用Go语言并发,发现了一些对我来说不透明的东西.

我写了并行矩阵乘法,也就是说,每个任务计算产品矩阵的单行,乘以源矩阵的相应行和列.

这是Java程序

public static double[][] parallelMultiply(int nthreads, final double[][] m1, final double[][] m2) {
    final int n = m1.length, m = m1[0].length, l = m2[0].length;
    assert m1[0].length == m2.length;

    double[][] r = new double[n][];

    ExecutorService e = Executors.newFixedThreadPool(nthreads);
    List<Future<double[]>> results = new LinkedList<Future<double[]>>();
    for (int ii = 0; ii < n; ++ii) {
        final int i = ii;
        Future<double[]> result = e.submit(new Callable<double[]>() {
            public double[] call() throws Exception {
                double[] row = new double[l];
                for (int j = 0; j < l; ++j) {
                    for (int k = 0; k < m; ++k) {
                        row[j] += m1[i][k]*m2[k][j];
                    }
                }
                return row;
            }
        });
        results.add(result);
    }
    try {
        e.shutdown();
        e.awaitTermination(1, TimeUnit.HOURS);
        int i = 0;
        for (Future<double[]> result : results) {
            r[i] = result.get();
            ++i;
        }
    } catch (Exception ex) {
        ex.printStackTrace();
        return null;
    }

    return r;
}
Run Code Online (Sandbox Code Playgroud)

这是Go计划

type Matrix struct {
    n, m int
    data [][]float64
}

func New(n, m int) *Matrix {
    data := make([][]float64, n)
    for i, _ := range data {
        data[i] = make([]float64, m)
    }
    return &Matrix{n, m, data}
}

func (m *Matrix) Get(i, j int) float64 {
    return m.data[i][j]
}

func (m *Matrix) Set(i, j int, v float64) {
    m.data[i][j] = v
}

func MultiplyParallel(m1, m2 *Matrix) *Matrix {
    r := New(m1.n, m2.m)

    c := make(chan interface{}, m1.n)
    for i := 0; i < m1.n; i++ {
        go func(i int) {
            innerLoop(r, m1, m2, i)
            c <- nil
        }(i)
    }

    for i := 0; i < m1.n; i++ {
        <-c
    }

    return r
}

func innerLoop(r, m1, m2 *Matrix, i int) {
    for j := 0; j < m2.m; j++ {
        s := 0.0
        for k := 0; k < m1.m; k++ {
            s = s + m1.Get(i, k) * m2.Get(k, j)
        }
        r.Set(i, j, s)
    }
}
Run Code Online (Sandbox Code Playgroud)

当我使用nthreads = 1和nthreads = 2的Java程序时,我的双核N450 Atom上网本几乎加倍.当我使用Go程序与GOMAXPROCS = 1和GOMAXPROCS = 2时,根本没有加速!

尽管Java代码使用额外的存储Future秒,然后collectes它们的值的结果,而不是基质直接阵列更新的工人代码(这就是围棋的版本一样),它执行得多快多了几个核心不是去版本.

特别有趣的是,转到版本与GOMAXPROCS = 2个负载两个芯(HTOP上两个处理器显示100%的负载,同时程序工作),但计算的时间是相同的,与GOMAXPROCS = 1(HTOP将显示100%的负载仅在一个芯在这种情况下).

另一个问题是,即使在简单的单线程乘法中,Java程序也比Go程序快,但这并非完全出乎意料(从这里考虑基准)并且不应影响多核性能乘数.

我在这里做错了什么?有没有办法加速Go计划?

UPD:我似乎发现了我做错了什么.我正在System.currentTimeMillis()使用timeshell命令检查java程序的使用时间和Go程序.我错误地将zsh输出的'用户'时间作为程序工作时间而不是'总'.现在我仔细检查了计算速度,它也给了我几乎加倍的速度(虽然它比Java更小):

% time env GOMAXPROCS=2 ./4-2-go -n 500 -q
env GOMAXPROCS=2 ./4-2-go -n 500 -q  22,34s user 0,04s system 99% cpu 22,483 total
% time env GOMAXPROCS=2 ./4-2-go -n 500 -q -p
env GOMAXPROCS=2 ./4-2-go -n 500 -q -p  24,09s user 0,10s system 184% cpu 13,080 total
Run Code Online (Sandbox Code Playgroud)

似乎我必须更加专心.

仍然java程序在同一个案例中给出了五次较少的时间.但这是我认为的另一个问题.

Bra*_*vic 11

您可能正在经历虚假共享的影响.简而言之,如果两个数据碰巧落在同一个CPU缓存行上,那么从在不同CPU内核上执行的线程修改这两个数据将触发昂贵的缓存一致性协议.

这种缓存"乒乓"非常难以诊断,并且可能发生在逻辑上完全不相关的数据上,只是因为它们碰巧放在内存中足够接近.100%的CPU负载是典型的错误共享 - 您的核心确实 100%工作,他们只是不在您的程序上工作 - 他们正在努力同步他们的缓存.

事实上,在Java程序中,您有一个线程私有数据,直到将其"集成"到最终结果中,这样可以避免错误共享.我不熟悉Go,但是根据你自己的说法,线程直接写入公共数组,这正是可能触发错误共享的事情.这是一个完整有效的单线程推理如何在多线程环境中完全相反的示例!

有关该主题的更深入讨论,我热烈推荐Herb Sutter的文章:消除错误共享或讲座:机器架构:您的编程语言永远不会告诉您的事情(以及相关的PDF幻灯片).

  • @Branko在Go代码中,最内层循环的每个m1.m`迭代只有1个`r.Set(i,j,s)`.当`m1.m`约为500(如问题中所述)时,错误共享不应成为主要问题.在错误共享的情况下`r.data [i] [j]`在CPU的缓存中,而不是在内存中 - 因此与处理最内层循环所需的时间相比,可以预期处理冲突的速度相当快.如果`r.data [i] [j]`在内存中则是程序缓存使用效率的问题(因此它不是错误的共享问题). (2认同)