相关疑难解决方法(0)

我有一个应用程序解决了CUDA中的方程组,我知道每个线程最多可以找到4个解决方案,但是如何将其复制回主机呢？

我传递了一个有足够空间的巨大阵列,所有线程都存储了4个解决方案(每个解决方案有4个双解决方案),另一个解决了每个线程解决方案数量,但这是一个天真的解决方案,并且是我内核的当前瓶颈.

我真的很想优化这个.主要问题是在单个数组中连接每个线程的可变数量的解决方案.

6
推荐指数

1
解决办法

837
查看次数

gpu ×1