我知道对于具有31个线程的1D线程块,它将被填充到32个线程以进行warp执行.具有31*31线程的2D块怎么样?warp scheduler会为每个维度填充1个额外的线程(即总共31个将被填充),或者这个2D块线程将被连接,只有最后一个线程将被填充(31*31 = 961; 961%32 = 1) ?
cuda
cuda ×1