cuda上的128位整数?

Mat*_*nti 13 integer cuda nvidia 128-bit

我刚刚设法在Linux Ubuntu 10.04下安装我的cuda SDK.我的显卡是NVIDIA geForce GT 425M,我想用它来解决一些繁重的计算问题.我想知道的是:有没有办法使用一些无符号的128位int var?当使用gcc在CPU上运行我的程序时,我使用的是__uint128_t类型,但是将它与cuda一起使用似乎不起作用.在cuda上有128位整数可以做些什么吗?

非常感谢Matteo Monti Msoft编程

nju*_*ffa 49

为了获得最佳性能,人们希望在适当的CUDA矢量类型(例如uint4)之上映射128位类型,并使用PTX内联汇编实现功能.添加看起来像这样:

typedef uint4 my_uint128_t;
__device__ my_uint128_t add_uint128 (my_uint128_t addend, my_uint128_t augend)
{
    my_uint128_t res;
    asm ("add.cc.u32      %0, %4, %8;\n\t"
         "addc.cc.u32     %1, %5, %9;\n\t"
         "addc.cc.u32     %2, %6, %10;\n\t"
         "addc.u32        %3, %7, %11;\n\t"
         : "=r"(res.x), "=r"(res.y), "=r"(res.z), "=r"(res.w)
         : "r"(addend.x), "r"(addend.y), "r"(addend.z), "r"(addend.w),
           "r"(augend.x), "r"(augend.y), "r"(augend.z), "r"(augend.w));
    return res;
}
Run Code Online (Sandbox Code Playgroud)

通过将128位数字分成32位块,计算64位部分乘积并适当地添加它们,可以类似地使用PTX内联汇编来构造乘法.显然这需要一些工作.通过将数字分成64位块并使用__umul64hi()与常规64位乘法和一些加法相结合,可以在C级获得合理的性能.这将导致以下结果:

__device__ my_uint128_t mul_uint128 (my_uint128_t multiplicand, 
                                     my_uint128_t multiplier)
{
    my_uint128_t res;
    unsigned long long ahi, alo, bhi, blo, phi, plo;
    alo = ((unsigned long long)multiplicand.y << 32) | multiplicand.x;
    ahi = ((unsigned long long)multiplicand.w << 32) | multiplicand.z;
    blo = ((unsigned long long)multiplier.y << 32) | multiplier.x;
    bhi = ((unsigned long long)multiplier.w << 32) | multiplier.z;
    plo = alo * blo;
    phi = __umul64hi (alo, blo) + alo * bhi + ahi * blo;
    res.x = (unsigned int)(plo & 0xffffffff);
    res.y = (unsigned int)(plo >> 32);
    res.z = (unsigned int)(phi & 0xffffffff);
    res.w = (unsigned int)(phi >> 32);
    return res;
}
Run Code Online (Sandbox Code Playgroud)

下面是使用PTX内联汇编的128位乘法版本.它需要随CUDA 4.2一起提供的PTX 3.0,并且代码需要至少具有计算能力2.0的GPU,即Fermi或Kepler类设备.该代码使用最少数量的指令,因为需要16个32位乘法来实现128位乘法.相比之下,上面使用CUDA内在函数的变体编译为sm_20目标的23条指令.

__device__ my_uint128_t mul_uint128 (my_uint128_t a, my_uint128_t b)
{
    my_uint128_t res;
    asm ("{\n\t"
         "mul.lo.u32      %0, %4, %8;    \n\t"
         "mul.hi.u32      %1, %4, %8;    \n\t"
         "mad.lo.cc.u32   %1, %4, %9, %1;\n\t"
         "madc.hi.u32     %2, %4, %9,  0;\n\t"
         "mad.lo.cc.u32   %1, %5, %8, %1;\n\t"
         "madc.hi.cc.u32  %2, %5, %8, %2;\n\t"
         "madc.hi.u32     %3, %4,%10,  0;\n\t"
         "mad.lo.cc.u32   %2, %4,%10, %2;\n\t"
         "madc.hi.u32     %3, %5, %9, %3;\n\t"
         "mad.lo.cc.u32   %2, %5, %9, %2;\n\t"
         "madc.hi.u32     %3, %6, %8, %3;\n\t"
         "mad.lo.cc.u32   %2, %6, %8, %2;\n\t"
         "madc.lo.u32     %3, %4,%11, %3;\n\t"
         "mad.lo.u32      %3, %5,%10, %3;\n\t"
         "mad.lo.u32      %3, %6, %9, %3;\n\t"
         "mad.lo.u32      %3, %7, %8, %3;\n\t"
         "}"
         : "=r"(res.x), "=r"(res.y), "=r"(res.z), "=r"(res.w)
         : "r"(a.x), "r"(a.y), "r"(a.z), "r"(a.w),
           "r"(b.x), "r"(b.y), "r"(b.z), "r"(b.w));
    return res;
}
Run Code Online (Sandbox Code Playgroud)

  • @einpoklum不太可能,因为64位整数运算是模拟的,通常最好在本机指令而不是其他仿真之上构建仿真.因为32位整数乘法和乘法加法本身是在Maxwell和Pascal架构上模拟的,所以最好使用本机*16位*乘法,它们映射到机器指令`XMAD`(16x16 + 32位乘法) -add操作).我*读*使用Volta架构恢复了原生的32位整数乘法,但我还没有使用Volta的实际操作经验. (2认同)

tke*_*win 12

CUDA本身不支持128位整数.您可以使用两个64位整数自行伪造操作.

看看这篇文章:

typedef struct {
  unsigned long long int lo;
  unsigned long long int hi;
} my_uint128;

my_uint128 add_uint128 (my_uint128 a, my_uint128 b)
{
  my_uint128 res;
  res.lo = a.lo + b.lo;
  res.hi = a.hi + b.hi + (res.lo < a.lo);
  return res;
} 
Run Code Online (Sandbox Code Playgroud)

  • 您在CPU上使用此"my_uint128"在CPU上测试了内置的128位整数?当然,原生支持会更快.希望在这种128位类型的GPU上的性能将比具有内置128位整数的CPU上的性能更快. (4认同)