相关疑难解决方法(0)

如何从CUDA中的线程有效地收集数据?

我有一个应用程序解决了CUDA中的方程组,我知道每个线程最多可以找到4个解决方案,但是如何将其复制回主机呢?

我传递了一个有足够空间的巨大阵列,所有线程都存储了4个解决方案(每个解决方案有4个双解决方案),另一个解决了每个线程解决方案数量,但这是一个天真的解决方案,并且是我内核的当前瓶颈.

我真的很想优化这个.主要问题是在单个数组中连接每个线程的可变数量的解决方案.

optimization cuda gpu gpgpu

6
推荐指数
1
解决办法
837
查看次数

标签 统计

cuda ×1

gpgpu ×1

gpu ×1

optimization ×1