Max*_*x K -1 hardware cuda gpu
我找到了有关特斯拉P100每个SM包含多少CUDA核心的信息.它的64*FP32和32*FP64.我无法找到GTX 1070的任何数字.
也是后续问题.由于特斯拉的核心比例为1:2,这意味着双精度性能是单精度内核性能的最大值的一半吗?
我找到了有关特斯拉P100每个SM包含多少CUDA核心的信息.它的64*FP32和32*FP64.我无法找到GTX 1070的任何数字.
GTX 1070是cc6.1 GPU.我们可以参考编程指南中的这个表来发现相对指令吞吐量:
6.1
32-bit floating-point add, multiply, multiply-add 128
64-bit floating-point add, multiply, multiply-add 4
Run Code Online (Sandbox Code Playgroud)
这些数字是每个时钟和每个SM.这意味着每个SM有128个FP32浮点单元和4个FP64浮点单元.然后,您只需要将这些数字乘以cc6.1 GPU中的SM数量(deviceQuery例如,您可以获得),以获得GPU中的总FP32和总FP64内核.
也是后续问题.由于特斯拉的核心比例为1:2,这意味着双精度性能是单精度内核性能的最大值的一半吗?
是的,这就是它的意思(对于适当测量的计算绑定代码,即每种情况下限制器都是这个特定指标的代码).请注意,此1:2比率不适用于所有特斯拉处理器,但适用于费米特斯拉处理器(例如M2070,M2090等),适用于特斯拉P100.也许更好的说明方式是,对于这种类型的GPU,1:2比率反映了FP64:FP32比较的峰值理论性能比.