小编use*_*320的帖子

什么样的变量消耗CUDA中的寄存器？

__global__ void add( int *c, const int* a, const int* b )
{
    int x = blockIdx.x;
    int y = blockIdx.y;
    int offset = x + y * gridDim.x;
    c[offset] = a[offset] + b[offset];
}

Run Code Online (Sandbox Code Playgroud)

在上面的例子,我想x,y,offset被保存在寄存器中而

nvcc -Xptxas -v给出4 registers, 24+16 bytes smem
profiler显示4个寄存器

和ptx文件的头部:

.reg .u16 %rh<4>;
.reg .u32 %r<9>;    
.reg .u64 %rd<10>;  
.loc    15  21  0   

$LDWbegin__Z3addPiPKiS1_:   
.loc    15  26  0

Run Code Online (Sandbox Code Playgroud)

任何人都可以澄清寄存器的用法吗？在Fermi中,每个线程的最大寄存器数为63.在我的程序中,我想测试内核消耗太多寄存器的情况(因此变量可能必须自动存储在本地存储器中,从而导致性能下降).然后在这一点上,我可以将一个内核分成两个,这样每个线程都有足够的寄存器.假设SM资源足以用于并发内核.

我不确定我是不对的.

cuda

use*_*320

2012 07-14

11
推荐指数

1
解决办法

1377
查看次数

标签统计

cuda ×1

什么样的变量消耗CUDA中的寄存器？

标签 统计

小编use_320的帖子

标签统计