rm9*_*m95 1 caching cuda gpgpu nsight compute-capability
这些是我的假设:
假设计算能力为 7.5,我的问题如下:
CC 6.x/7.x
在 Nsight Compute 中,术语“请求”在 6.x 和 7.x 之间变化。
回答您的 CC 7.5 问题
- 第三个假设似乎暗示对于全局缓存加载,L2->TEX 返回应该始终是四的倍数,但情况并非总是如此。这里发生了什么?
L1TEX 单元只会获取缓存行中丢失的 32B 扇区。
- 用 const 和limit 限定符标记指针还有意义吗?这曾经是向编译器暗示数据是只读的,因此可以缓存在 L1/纹理缓存中,但现在所有数据都缓存在那里,无论是只读的还是非只读的。
如果已知数据是只读的,则编译器可以执行其他优化。
- 根据我的第四个假设,我认为只要 TEX->SM Returns 大于 L2->TEX Returns,差异就来自缓存命中。这是因为当缓存命中时,您会从 L1 读取一些扇区,但不会从 L2 读取任何扇区。这是真的?
L1TEX 到 SM 返回 B/W 为 128B/周期。L2 到 SM 返回 B/W 位于 32B 扇区中。
Nsight 计算内存工作负载分析 | L1/TEX 缓存表显示
| 归档时间: |
|
| 查看次数: |
634 次 |
| 最近记录: |