CUDA __umul24 函数,有用与否?

Mar*_* A. 6 cuda multiplication

是否值得在 CUDA 内核中用 __umul24 函数替换所有乘法?我阅读了不同和相反的意见,但我仍然无法做出基准来弄清楚

fab*_*ioM 4

仅在具有 fermi 之前架构的设备中,即具有 2.0 之前的 cuda 功能,其中整数运算单元为 24 位。

在功能 >= 2.0 的 Cuda 设备上,架构是 32 位,_umul24 会更慢而不是更快。原因是它必须用 32 位架构来模拟 24 位操作。

现在的问题是:为了速度增益而付出的努力值得吗?可能不会。