我需要总结100000存储在数组中的值,但有条件.
100000
有没有办法在CUDA中做到这一点以产生快速结果?
任何人都可以发布一个小代码来做到这一点?
performance synchronization cuda sum
cuda ×1
performance ×1
sum ×1
synchronization ×1