cuda'memory bound'vs'延迟界限'对'带宽限制'vs'计算界限'

Question

在许多在线资源中,可以找到"内存","带宽","延迟"绑定内核的不同用法.在我看来,作者有时会使用他们自己对这些术语的定义,我认为如果对某人做出明确的区分是非常有益的.

据我所知:带宽绑定内核在访问全局内存方面接近设备的物理限制.例如,在M2090设备上,应用程序使用170GB/s的177GB/s.

延迟限制内核是其主要停顿原因归因于内存提取的内核.因此,我们不会使全局内存总线饱和,但仍需等待将数据导入内核.

计算绑定内核是计算主导内核时间的内核,假设没有问题为内核提供内存,并且算术和延迟有很好的重叠.

如果我得到这些正确的话,"内存限制"内核会是什么？是否含糊不清,如果是,我们是否应该将对话限制在上述三个条款中？

谢谢!

Answer 1

"内存限制"内核会是什么？

内存绑定是指代码受内存访问限制的一般情况,即.它包括延迟限制的代码和带宽限制的代码.你已经正确地定义了所有其他术语.

是否含糊不清,如果是,我们是否应该将对话限制在上述三个条款中？

我不认为有很多含糊之处(你已经清楚地划分了4个术语中的3个,无论如何),你不会在SO问题/答案中对世界强加秩序.