缓存高效矩阵转置程序？

Question

缓存高效矩阵转置程序？

所以转置矩阵的显而易见的方法是使用:

  for( int i = 0; i < n; i++ )

    for( int j = 0; j < n; j++ )

      destination[j+i*n] = source[i+j*n];

Run Code Online (Sandbox Code Playgroud)

但是我想要一些能利用局部性和缓存阻塞的东西.我正在查找它并且找不到可以执行此操作的代码,但我被告知它应该是对原始的非常简单的修改.有任何想法吗？

编辑:我有一个2000x2000矩阵,我想知道如何使用两个for循环更改代码,基本上将矩阵拆分为我单独转置的块,比如2x2块或40x40块,并查看哪个块大小最有效.

编辑2:矩阵以列主要顺序存储,即对于矩阵

a1 a2    
a3 a4

Run Code Online (Sandbox Code Playgroud)

存储为a1 a3 a2 a4.

Answer 1

Ste*_*sop 40

您可能需要四个循环 - 两个循环遍历块,然后另外两个循环执行单个块的转置副本.假设为了简单起见,块大小除以矩阵的大小,我认为这样的东西,虽然我想在信封的背面画一些图片,以确保:

for (int i = 0; i < n; i += blocksize) {
    for (int j = 0; j < n; j += blocksize) {
        // transpose the block beginning at [i,j]
        for (int k = i; k < i + blocksize; ++k) {
            for (int l = j; l < j + blocksize; ++l) {
                dst[k + l*n] = src[l + k*n];
            }
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

一个重要的进一步的见解是,实际上存在一个缓存无关的算法(参见http://en.wikipedia.org/wiki/Cache-oblivious_algorithm,它以这个确切的问题为例)."cache-oblivious"的非正式定义是,您无需尝试调整任何参数(在本例中为blocksize),以达到良好/最佳缓存性能.在这种情况下的解决方案是通过递归地将矩阵分成两半并将半部转置到目的地中的正确位置来进行转置.

无论实际的缓存大小是多少,这种递归都会利用它.与您的策略相比,我预计会有一些额外的管理开销,即使用性能实验实际上直接跳转到缓存真正起作用的递归点,并且不再进一步.另一方面,您的性能实验可能会为您提供适用于您的计算机但不适用于客户计算机的答案.

更正：我认为编译存在一些问题。您提供的解决方案快了4倍：） (2认同)

Answer 2

Arn*_*aud 10

我昨天遇到了完全相同的问题.我最终得到了这个解决方案:

void transpose(double *dst, const double *src, size_t n, size_t p) noexcept {
    THROWS();
    size_t block = 32;
    for (size_t i = 0; i < n; i += block) {
        for(size_t j = 0; j < p; ++j) {
            for(size_t b = 0; b < block && i + b < n; ++b) {
                dst[j*n + i + b] = src[(i + b)*p + j];
            }
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

这比我机器上明显的解决方案快4倍.

该解决方案负责矩形矩阵,其尺寸不是块大小的倍数.

如果dst和src是相同的方阵,则应该使用原位函数:

void transpose(double*m,size_t n)noexcept{
    size_t block=0,size=8;
    for(block=0;block+size-1<n;block+=size){
        for(size_t i=block;i<block+size;++i){
            for(size_t j=i+1;j<block+size;++j){
                std::swap(m[i*n+j],m[j*n+i]);}}
        for(size_t i=block+size;i<n;++i){
            for(size_t j=block;j<block+size;++j){
                std::swap(m[i*n+j],m[j*n+i]);}}}
    for(size_t i=block;i<n;++i){
        for(size_t j=i+1;j<n;++j){
            std::swap(m[i*n+j],m[j*n+i]);}}}

Run Code Online (Sandbox Code Playgroud)

我使用的是C++ 11,但这可以很容易地用其他语言翻译.

Answer 3

pay*_*yne 7

为什么不将转置操作折叠到你要在矩阵上进行的下一个操作,而不是将矩阵转置到内存中？

绝对值得考虑.一种不错的方法是创建一个在原始矩阵上呈现"视图"的对象,就像数据库中的视图一样. (3认同)
不仅仅值得考虑,@ j_random_hacker.短期中的"视图"对象将表示与意图分离,这通常是一种很好的设计策略.它还允许您构建,让计算机以类似于数据库查询优化器的方式为事物找出好的算法. (2认同)

Answer 4

mar*_*nes 6

Steve Jessop提到了缓存遗忘矩阵转置算法.为了记录,我想分享缓存遗忘矩阵转置的可能实现.

public class Matrix {
    protected double data[];
    protected int rows, columns;

    public Matrix(int rows, int columns) {
        this.rows = rows;
        this.columns = columns;
        this.data = new double[rows * columns];
    }

    public Matrix transpose() {
        Matrix C = new Matrix(columns, rows);
        cachetranspose(0, rows, 0, columns, C);
        return C;
    }

    public void cachetranspose(int rb, int re, int cb, int ce, Matrix T) {
        int r = re - rb, c = ce - cb;
        if (r <= 16 && c <= 16) {
            for (int i = rb; i < re; i++) {
                for (int j = cb; j < ce; j++) {
                    T.data[j * rows + i] = data[i * columns + j];
                }
            }
        } else if (r >= c) {
            cachetranspose(rb, rb + (r / 2), cb, ce, T);
            cachetranspose(rb + (r / 2), re, cb, ce, T);
        } else {
            cachetranspose(rb, re, cb, cb + (c / 2), T);
            cachetranspose(rb, re, cb + (c / 2), ce, T);
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

有关缓存遗忘算法的更多详细信息,请参见此处.

归档时间：	14 年，11 月前
查看次数：	47885 次
最近记录：	8 年，3 月前