手动自动矢量化与矢量化代码

Question

在某种意义上,使用显式编译指示或依赖或使用自动矢量化来手动矢量化代码是否更好？为了使用自动矢量化获得最佳性能,必须监视编译器输出以确保循环被矢量化或修改它们直到它们是可矢量化的.

使用手动编码,可以确定正在发出所需的指令,但现在代码可能不可移植(无论是其他架构还是其他编译器).

Answer 1

自动矢量化对我来说永远不会很好.对我来说,似乎自动矢量化目前仅适用于非常微不足道的循环.

我使用pragma/intrinsic方法并查看程序集.如果编译器生成错误代码(如将SSE注册表溢出到堆栈中或添加冗余移动),我会在整个循环体中使用内联汇编程序.

便携性不是问题.通常,您从C/C++循环开始,并使用内在函数进行优化.只需保留旧循环并将其用作SIMD实现的单元测试/后备.此外,能够通过编译时定义从项目中删除所有SIMD代码总是明智的.以这种方式调试应用程序要容易得多.相同的定义可用于交叉编译.

Answer 2

我永远不会依赖任何编译器的自动矢量化。随着gcc我会倍加小心，因为效果gcc的优化，总是从版本而有所不同。我认识的几乎所有依赖特殊优化或 gcc 扩展的人都必须在新gcc版本发布时处理损坏问题。

您通常可以信任 pragma 和内在函数，但您应该密切关注新 gcc 版本的发行说明，并且您应该告诉您自己的用户编译您的代码需要什么 gcc 版本。

有一两次当矢量化真的很重要时，我们在测试套件中添加了一些东西来调用objdump和验证矢量指令是否真正被使用。能够自动检测“坏向量代码”（如 Nils 描述的那样）会很好，但我们从来没有走那么远。