“cqo”、“cdq”和“cwd”x86_64 指令。为什么不只使用 cqo？

Hus*_*sky 6 assembly x86-64

我不是最有经验的汇编程序员，我遇到了“cqo”、“cdq”和“cwd”指令，它们都是有效的 x86_64 汇编。

我想知道在操作较小的值时使用 cdq 或 cwd 是否有任何优势。性能上有什么区别吗？

编辑：最初在计算一位数的绝对值时开始研究这一点。

例如，如果我们在 al 中有 -9 值：

cwd
xor al,dl
sub al,dl

Run Code Online (Sandbox Code Playgroud)

与将其作为 32 位值并计算

cdq
xor eax,edx
sub eax,edx

Run Code Online (Sandbox Code Playgroud)

或者如果我们有 -9 的 64 位值

cqo
xor rax,rdx
sub rax,rdx

Run Code Online (Sandbox Code Playgroud)

如果原始值是 64 位并且由一个值 -9 到 9 组成，那么实际上它们看起来都是一样的。

仅当您的值已进行符号扩展以填充超过 16 位的 rax 时，您才可以选择。

如果 ax 中有一个有符号的 16 位 int，但 eax 的上位 16 未知或为零，则必须继续使用 16 位指令。 cdq会根据 eax 顶部的垃圾位设置 edx，而不是 ax 中值的符号位。

类似地，如果您使用 32 位操作在 eax 中生成带符号的 32 位 int，则 upper32 将被清零，而不是符号扩展。

如果可以的话，请使用cdq. cqo如果您需要在 rdx 中设置所有 64 位，则可能需要。

请参阅http://agner.org/optimize/了解如何制作在 x86 上快速运行的 asm。64 位模式下默认为 32 位操作数大小，因此 16 或 64 位操作数需要额外的前缀。这意味着更大的代码大小，这意味着更差的 I-cache 效率（并且在 Sandybridge 之前的 CPU 上通常会出现更多解码瓶颈；SnB 的 uop 缓存通常意味着解码不是问题。）

16 位还对寄存器先前的内容有错误的依赖，因为写入 ax 不会清除 rax 的其余部分。幸运的是，AMD64 在设计时就考虑到了乱序 CPU，因此它通过在写入 GP reg 的低 32 位时清除 upper32 来避免重复对高性能带来不便的设计选择。（x86 CPU 在设计 AMD64 时就已经使用了 OOO，这与 ax 扩展为 eax 时不同）。

[为什么大多数 x64 指令将 32 位寄存器的上部清零](http://stackoverflow.com/q/11177137/995714) (2认同)

归档时间：	10 年前
查看次数：	6735 次
最近记录：	9 年，12 月前

为什么32位寄存器上的x86-64指令归零整个64位寄存器的上半部分？ 97

更多相关链接

什么是'asmlinkage'修饰符意味着什么？ 35

x86 Assembly和yasm中immediates(方括号)的基本用法 28

指令减少 33%，内存访问减少 17%，但速度提高 4 倍？ 5

如何在 MacOS 上正确使用“write”系统调用打印到标准输出？ 5

如何编译静态库 4

是否可以将 ymm16 - ymm31 用于 AVX2 vpcmpeq{size} 指令？ 4

MIX 减法如何处理“压缩”单词 3

为什么调用和跳转指令相对于下一条指令而不是当前指令使用位移？ 2

访问Linux 2.6.x下的任何内存位置 1

括号中带有寄存器的十六进制数在汇编中意味着什么？ 1

如何从当前的Git工作树中删除本地(未跟踪)文件？ 6561

使用Java创建内存泄漏 3076

如何在JavaScript中获取当前日期？ 2152

如何创建一个像链接一样的HTML按钮？ 1769

表命名困境:奇异与多个名称 1404

从JSON文件中解析值？ 1400

插入...值(SELECT ... FROM ...) 1340

检查Bash shell脚本中是否存在输入参数 1223

我怎样才能用Python代表'Enum'？ 1146

Access-Control-Allow-Origin标头如何工作？ 1050