如果我每个 SM 有 48kB 共享内存,并且我编写了一个分配 32kB 共享内存的内核,这意味着一个 SM 上只能同时运行 1 个块?
cuda gpu-shared-memory
cuda ×1
gpu-shared-memory ×1