相关疑难解决方法(0)

帮我理解cuda

我在使用cuda理解NVIDIA gpu架构中的线程时遇到了一些麻烦.

请任何人澄清这些信息:一个8800 gpu有16个SM,每个有8个SP.所以我们有128个SP.

我正在观看斯坦福的视频演示,并且说每个SP都能够在当前运行96个线程.这是否意味着它(SP)可以同时运行96/32 = 3个warp?

此外,由于每个SP可以运行96个线程,并且每个SM都有8个SP.这是否意味着每个SM可以同时运行96*8 = 768个线程?但是如果每个SM一次只能运行一个Block,并且一个块中的最大线程数是512,那么同时运行768个线程并且最多有512个线程的目的是什么?

一个更普遍的问题是:如何将块,线程和warp分配给SM和SP?我读到每个SM一次只能执行一个块,块中的线程被分成warp(32个线程),SP执行warp.

parallel-processing cuda gpu

16
推荐指数
2
解决办法
1万
查看次数

标签 统计

cuda ×1

gpu ×1

parallel-processing ×1