小编use*_*748的帖子

Thrust库可用于对数据进行排序.调用可能看起来像这样(带有键和值向量):

thrust::sort_by_key(d_keys.begin(), d_keys.end(), d_values.begin());

称为在CPU上,以d_keys及d_values在CPU存储器是; 并且大部分执行都发生在GPU上.

但是,我的数据已经在GPU上？如何使用Thrust库直接在GPU上执行高效排序,即sort_by_key从内核调用函数？

此外,我的数据包括或者是unsigned long long int或者unsigned int始终是数据的键 unsigned int.我应该如何对这些类型进行推力调用？

8
推荐指数

1
解决办法

4136
查看次数

在CUDA(数千个级别)上实现深度递归的最有效方法是什么？如果递归用于遍历树状数据结构,在哪里查找代码示例？

我刚刚使用Cuda Dynamic Parallelism在K20 GPU上实现了递归,但发现由于参数cudaLimitDevRuntimeSyncDepth而限制了24个级别

我想达到最大.大数据的速度和缩放.

4
推荐指数

1
解决办法

2636
查看次数

小编use_748的帖子