大约一年前,我已经使用这两种方法进行排序和前缀求和(使用 CUDA 4.1,但我不记得 Thrust 和 CUDPP 的版本),并且我发现 CUDPP 更快一点,但 Thrust 更容易使用(使用 float -大约有 20M 条目的数组)。
至于功能,据我所知,您还可以将 Thrust 与主机内存一起使用,而不仅仅是设备内存(与 CUDPP 相对),但这可能已经过时了。
| 归档时间: |
|
| 查看次数: |
890 次 |
| 最近记录: |