为什么 GCC 更喜欢 FP 指令的 AVX 版本？

Dol*_*000 5 assembly gcc x86-64

在为具有 AVX 的 CPU（例如 with -march=sandy-bridge）进行编译时，与 SSE 版本相比，GCC 似乎总是更喜欢简单的标量浮点指令的 AVX 版本。例如，它使用vmulsd代替mulsd。

我想知道，是否有任何与性能相关的特定原因，或者只是 GCC 的一些实现细节使其更容易/更自然地安排此类指令？从我所拥有的来源（主要是 Agner 的指令表）中可以看出，AVX 和 SSE 指令的性能似乎相当。我意识到 AVX 指令是三个操作数，但 GCC 似乎几乎总是只使用与源操作数之一相同的目标寄存器。

归档时间：	10 年前
查看次数：	517 次
最近记录：	10 年前

使用AVX CPU指令:没有"/ arch:AVX"的性能不佳 49

更多相关链接

分层ldd(1) 38

设置寄存器为1或(-1)的最有效方法 19

gcc如何在Linux上实现堆栈展开C++异常？ 18

MSYS2 - 安装gcc还是工具链？ 11

未注释未使用的语句时浮点异常？ 8

在iOS上如何快速将RGB24转换为BGR24？ 7

如何理解PowerPC stwbrx的这个GNU C内联汇编宏 4

用Yocto交叉编译GCC和GDB 3

为什么GCC在将无符号长度设置为2 ^ 64-1时会发出警告？ 3

基类的嵌套类的外部定义 2

如何修改现有的,未删除的提交？ 7669

如何正确克隆JavaScript对象？ 2922

"最小的惊讶"和可变的默认论证 2458

可以(a == 1 && a == 2 && a == 3)评估为真吗？ 2438

如何修改指定的提交？ 2077

使用jQuery中止Ajax请求 1775

StringBuilder和StringBuffer之间的区别 1510

如何在Python中追加文件？ 1446

从已从磁盘中删除的Git存储库中删除多个文件 1294

如何在Ruby on Rails中获取当前的绝对URL？ 1030