小编Vuk*_*uck的帖子

cuda'memory bound'vs'延迟界限'对'带宽限制'vs'计算界限'

在许多在线资源中,可以找到"内存","带宽","延迟"绑定内核的不同用法.在我看来,作者有时会使用他们自己对这些术语的定义,我认为如果对某人做出明确的区分是非常有益的.

据我所知:带宽绑定内核在访问全局内存方面接近设备的物理限制.例如,在M2090设备上,应用程序使用170GB/s的177GB/s.

延迟限制内核是其主要停顿原因归因于内存提取的内核.因此,我们不会使全局内存总线饱和,但仍需等待将数据导入内核.

计算绑定内核是计算主导内核时间的内核,假设没有问题为内核提供内存,并且算术和延迟有很好的重叠.

如果我得到这些正确的话,"内存限制"内核会是什么?是否含糊不清,如果是,我们是否应该将对话限制在上述三个条款中?

谢谢!

memory cuda bandwidth

8
推荐指数
1
解决办法
3242
查看次数

标签 统计

bandwidth ×1

cuda ×1

memory ×1