Thrust库可用于对数据进行排序.调用可能看起来像这样(带有键和值向量):
thrust::sort_by_key(d_keys.begin(), d_keys.end(), d_values.begin());
Run Code Online (Sandbox Code Playgroud)
称为在CPU上,以d_keys及d_values在CPU存储器是; 并且大部分执行都发生在GPU上.
但是,我的数据已经在GPU上?如何使用Thrust库直接在GPU上执行高效排序,即sort_by_key从内核调用函数?
此外,我的数据包括或者是unsigned long long int或者unsigned int始终是数据的键
unsigned int.我应该如何对这些类型进行推力调用?
在CUDA(数千个级别)上实现深度递归的最有效方法是什么?如果递归用于遍历树状数据结构,在哪里查找代码示例?
我刚刚使用Cuda Dynamic Parallelism在K20 GPU上实现了递归,但发现由于参数cudaLimitDevRuntimeSyncDepth而限制了24个级别
我想达到最大.大数据的速度和缩放.