Desktop i7-4770k @ 4GHz核心的峰值GFLOPS为4GHz*8(AVX)*(4 FMA)*4核= 512 GFLOPS.但最新的英特尔IGP(Iris Pro 5100/5200)峰值超过800 GFLOPS.因此,一些算法在IGP上运行得更快.将核心与IGP结合在一起甚至会更好.此外,IGP不断消耗更多硅.Iris Pro 5100现在占硅的30%以上.似乎很清楚英特尔台式机处理器的发展方向.
据我所知,除了OpenCL/OpenGL之外,程序员大多忽略了英特尔IGP.我很想知道如何在没有OpenCL的情况下为计算机(例如SGEMM)编程英特尔高清显卡硬件?
补充评论: 他们不支持Linux上的高清显卡和OpenCL.我发现beignet是开源尝试,至少为Ivy Bridge高清显卡增加了对Linux的支持.我没试过.可能是开发Beignet的人知道如何在没有OpenCL的情况下对HD图形硬件进行编程.
请记住,将数据复制到视频卡并返回会影响性能,因此必须考虑到这一点。AMD 即将发布 APU 芯片,在同一芯片上为 CPU 和 GPU 提供统一的内存,这将大大有助于缓解这一问题。
在 CUDA 和 OpenCL 之前,GPU 的使用方式是利用 DirectX 或 OpenGL 将要操作的内存表示为纹理。谢天谢地,我们不必再这样做了!
AMD 确实在推动 APU / OpenCL 模型,因此更多程序应该通过 OpenCL 来利用 GPU - 如果存在性能权衡的话。目前,GPU 计算属于一个小众市场,属于高性能计算或数字处理领域,而网页浏览和文字处理并不需要这些计算。