hea*_*low 4 cuda nsight-compute
计算工作负载分析显示不同计算管道的利用率。我知道在现代 GPU 中,整数和浮点管道是不同的硬件单元,可以并行执行。但是,对于其他管道,哪个管道代表哪个硬件单元并不是很清楚。我也找不到任何关于管道缩写和解释的在线文档。
我的问题是:
1)ADU、CBU、TEX、XU的全称是什么?它们如何映射到硬件?
2) 哪些流水线使用相同的硬件单元(例如 FP16、FMA、FP64 使用浮点单元)?
3)现代GPU中的warp调度器每个周期可以调度2条指令(使用不同的管道)。哪些流水线可以同时使用(例如 FMA-ALU、FMA-SFU、ALU-Tensor 等)?
Volta (CC 7.0) 和 Turing (CC 7.5) SM 由 4 个子分区 (SMSP) 组成。每个子分区包含
包含其他几个分区,其中包含由 4 个子分区共享的执行单元和资源,包括
在 Volta (CC7.0、7.2) 和 Turing (CC7.5) 中,每个 SM 子分区每个周期可以发出 1 条指令。该指令可以发送到本地执行单元或SM共享执行单元。
| 归档时间: |
|
| 查看次数: |
547 次 |
| 最近记录: |