根据英特尔内部指南,
vxorpd ymm, ymm, ymm:计算a和b中打包的双精度(64位)浮点元素的按位XOR,并将结果存储在dst中.vpxor ymm, ymm, ymm:计算a和b中256位(表示整数数据)的按位XOR,并将结果存储在dst中.两者有什么区别?在我看来,两个指令都会对ymm寄存器的所有256位执行按位异或.如果我使用vxorpd整数数据会有任何性能损失(反之亦然)?
该orpd指令是“压缩双精度浮点值的按位逻辑或”。这与por(“按位逻辑或”)做的事情不完全一样吗?如果是这样,拥有它的意义何在?