Mar*_* A. 6 cuda multiplication
是否值得在 CUDA 内核中用 __umul24 函数替换所有乘法?我阅读了不同和相反的意见,但我仍然无法做出基准来弄清楚
仅在具有 fermi 之前架构的设备中,即具有 2.0 之前的 cuda 功能,其中整数运算单元为 24 位。
在功能 >= 2.0 的 Cuda 设备上,架构是 32 位,_umul24 会更慢而不是更快。原因是它必须用 32 位架构来模拟 24 位操作。
现在的问题是:为了速度增益而付出的努力值得吗?可能不会。