kir*_*chi 3 optimization implementation signal-processing image-processing convolution
我已经制作了用于2D卷积的CUDA程序,现在想将它与一些非CUDA实现进行比较以测量加速.
我可以使用经典的多循环方法或matlab的conv2来比较我自己在普通C中的实现,但它不像是合法/公平的比较,因为它们不是那里最快的实现.
此外,我正在考虑尝试OpenCV,我一直在寻找没有运气的SIMD优化版本.任何建议,我应该使用OpenCV吗?
注意:我已经阅读了其他问题,包括这个问题,但答案基本上与我的普通C代码或可用的各种方法的讨论相同.