我有一个应用程序解决了CUDA中的方程组,我知道每个线程最多可以找到4个解决方案,但是如何将其复制回主机呢?
我传递了一个有足够空间的巨大阵列,所有线程都存储了4个解决方案(每个解决方案有4个双解决方案),另一个解决了每个线程解决方案数量,但这是一个天真的解决方案,并且是我内核的当前瓶颈.
我真的很想优化这个.主要问题是在单个数组中连接每个线程的可变数量的解决方案.
optimization cuda gpu gpgpu
cuda ×1
gpgpu ×1
gpu ×1
optimization ×1