aar*_*qli 6 parallel-processing cpu gpu
我正在编写一个OpenCL内核,它在循环中涉及一些障碍.我已经在CPU(8核FX8150)上测试了内核,结果显示这些障碍将运行速度降低了50到100倍(我通过使用多线程+ CyclicBarrier在Java上重新实现内核进一步验证了这一点) .我怀疑原因是屏障基本上阻止了CPU利用无序执行,所以如果我在GPU上观察到相同幅度的速度降低,我有点担心.我检查了一些官方文档并搜索了一下,但是关于这个主题的信息很少.
| 归档时间: |
|
| 查看次数: |
1282 次 |
| 最近记录: |