小编mir*_*age的帖子

具有100%MP负载的CUDA中的最大(每块的共享内存)/(每块的线程数)

我正在尝试用CUDA 2.0(NVIDIA 590)处理一系列大型结构.我想为它使用共享内存.我已经尝试了CUDA占用计算器,尝试为每个线程分配最大共享内存,以便每个线程可以处理整个数组元素.但是,我在100%多处理器加载的计算器中可以看到的最大值(每块的共享内存)/(每块的线程数)是32字节,这对于单个元素(在数量级上)是不够的.32个字节是(每个块的共享内存)/(每个块的线程数)的最大可能值吗？是否可以说哪个alter4native更可取 - 在全局内存中分配数组的一部分还是只使用欠载的多处理器？或者它只能通过实验来决定？我能看到的另一个替代方案是在几个过程中处理数组,但它看起来像是最后的手段.这是我第一次尝试与CUDA非常复杂的东西,所以我可能会错过其他一些选择......

cuda gpgpu gpu-shared-memory

mir*_*age

2016 10-24

1
推荐指数

1
解决办法

2626
查看次数

标签统计

cuda ×1

gpgpu ×1

gpu-shared-memory ×1

具有100%MP负载的CUDA中的最大(每块的共享内存)/(每块的线程数)

标签 统计

小编mir_age的帖子

标签统计