CUDA __umul24 函数，有用与否？

Question

是否值得在 CUDA 内核中用 __umul24 函数替换所有乘法？我阅读了不同和相反的意见，但我仍然无法做出基准来弄清楚

Answer 1

仅在具有 fermi 之前架构的设备中，即具有 2.0 之前的 cuda 功能，其中整数运算单元为 24 位。

在功能 >= 2.0 的 Cuda 设备上，架构是 32 位，_umul24 会更慢而不是更快。原因是它必须用 32 位架构来模拟 24 位操作。

现在的问题是：为了速度增益而付出的努力值得吗？可能不会。