相关疑难解决方法(0)

在x86汇编中将寄存器设置为零的最佳方法是什么:xor,mov或？

以下所有说明都做同样的事情:设置%eax为零.哪种方式最佳(需要最少的机器周期)？

xorl   %eax, %eax
mov    $0, %eax
andl   $0, %eax

Run Code Online (Sandbox Code Playgroud)

optimization performance x86 assembly micro-optimization

bal*_*c55

2016 06-07

109
推荐指数

1
解决办法

4万
查看次数

将寄存器设置为零的方法有多少？

我很好奇有多少种方法可以在x86汇编中将寄存器设置为零.使用一条指令.有人告诉我,他设法找到了至少10种方法.

我能想到的是:

xor ax,ax
mov ax, 0
and ax, 0

Run Code Online (Sandbox Code Playgroud)

x86 assembly tasm x86-16

作者

lucky-day

28
推荐指数

2
解决办法

3万
查看次数

在执行uop计数不是处理器宽度倍数的循环时性能是否会降低？

我想知道各种大小的循环如何在最近的x86处理器上执行,作为uop数的函数.

以下是彼得·科德斯(Peter Cordes)的一句话,他在另一个问题中提出了非多数的问题:

我还发现,如果循环不是4 uop的倍数,则循环缓冲区中的uop带宽不是每个循环的常数4.(即它是abc,abc,......;不是abca,bcab,......).遗憾的是,Agner Fog的microarch doc对循环缓冲区的这种限制并不清楚.

问题是关于循环是否需要是N uop的倍数才能以最大uop吞吐量执行,其中N是处理器的宽度.(即最近的英特尔处理器为4).在谈论"宽度"和计算微动时,有很多复杂因素,但我大多想忽略这些因素.特别是,假设没有微观或宏观融合.

Peter给出了以下一个循环,其中包含7个uop的循环:

一个7-uop循环将发出4 | 3 | 4 | 3 | ...的组我没有测试更大的循环(不适合循环缓冲区),看看是否有可能从下一个指令开始迭代发布在与其分支相同的组中,但我不假设.

更一般地说,声称是x在其体内具有uops 的循环的每次迭代将至少进行ceil(x / 4)迭代,而不是简单地迭代x / 4.

对于部分或全部最新的x86兼容处理器,这是真的吗？

performance x86 assembly cpu-architecture micro-optimization

Bee*_*ope

2017 08-30

20
推荐指数

2
解决办法

2048
查看次数

在64位系统上组装32位二进制文件(GNU工具链)

我编写了可以编译的汇编代码:

as power.s -o power.o

Run Code Online (Sandbox Code Playgroud)

当我链接power.o目标文件时出现问题:

ld power.o -o power

Run Code Online (Sandbox Code Playgroud)

为了在64位操作系统(Ubuntu 14.04)上运行,我.code32在power.s文件的开头添加了,但是我仍然得到错误:

分段故障(核心转储)

power.s:

.code32
.section .data
.section .text
.global _start
_start:
pushl $3
pushl $2 
call power 
addl $8, %esp
pushl %eax 

pushl $2
pushl $5
call power
addl $8, %esp

popl %ebx
addl %eax, %ebx

movl $1, %eax
int $0x80



.type power, @function
power:
pushl %ebp  
movl %esp, %ebp 
subl $4, %esp 
movl 8(%ebp), %ebx 
movl 12(%ebp), %ecx 
movl %ebx, -4(%ebp) 

power_loop_start:
cmpl …

Run Code Online (Sandbox Code Playgroud)

linux x86 assembly build att

buw*_*ilv

2016 04-28

9
推荐指数

2
解决办法

3853
查看次数

混合EVEX和VEX编码方案的代价是什么？

这是一个已知的问题是混合VEX编码的指令和非VEX指令有一个点球和程序员必须意识到这一点.

有一些像这样的问题和答案.解决方案取决于您编程的方式(通常您应该zeroupper在转换后使用.但我的问题是关于EVEX编码的方案.只要没有内在函数,例如_mm512_zeroupper()使用VEX编码和EVEX-时似乎没有惩罚但是,EVEX是4字节,VEX是3字节,矢量长度分别是512位和256位.

因为AVX-512不可用(至少对我而言).我想问一下,当我们想要混合它们时,有什么需要注意的.

x86 assembly simd avx512

Mar*_*tin

2017 10-25

8
推荐指数

1
解决办法

667
查看次数

在x86-64中使用32位寄存器/指令的优点

有时gcc使用32位寄存器,当我希望它使用64位寄存器时.例如以下C代码:

unsigned long long 
div(unsigned long long a, unsigned long long b){
    return a/b;
}

Run Code Online (Sandbox Code Playgroud)

使用-O2选项编译(省略一些样板文件):

div:
    movq    %rdi, %rax
    xorl    %edx, %edx
    divq    %rsi
    ret

Run Code Online (Sandbox Code Playgroud)

对于无符号除法,寄存器%rdx需要0.这可以通过xorq %rdx, %rdx但xorl %edx, %edx似乎具有相同的效果来实现.

至少在我的机器上没有性能提升(即加速)进行xorl了xorq.

我实际上不只是一个问题:

为什么gcc更喜欢32位版本？
为什么gcc会停止xorl并且不使用xorw？
有没有xorl比这更快的机器xorq？
如果可能的话,总是更喜欢32位寄存器/操作而不是64位寄存器/操作吗？

assembly gcc x86-64 micro-optimization

ead*_*ead

2019 10-28

7
推荐指数

2
解决办法

749
查看次数

为什么VC++ 2010经常使用ebx作为"零寄存器"？

昨天我看了VC++ 2010生成的一些32位代码(很可能;不知道具体的选项,对不起),我对一个奇怪的反复出现的细节很感兴趣:在许多功能中,它ebx在序言中归零,它总是像"零寄存器"一样使用它(想想$zeroMIPS).特别是,经常:

用它来清零记忆; 这并不罕见,因为a的编码mov mem,imm大于1到4个字节mov mem,reg(即使对于0也必须编码完整的立即值大小),但通常(gcc)必要的寄存器被"按需"清零,并保持不变为了更有用的目的;
用它来比较零 - 比如cmp reg,ebx.这就是让我感到非常不寻常的事情,因为它应该完全相同test reg,reg,但是增加了对额外寄存器的依赖.现在,请记住,这发生在非叶子函数中,ebx经常被(被调用者)推入堆栈,因此我不相信这种依赖总是完全免费的.此外,它也用于test reg,reg在完全相同的方式(test/ cmp=> jg).

最重要的是,"经典"x86上的寄存器是一种稀缺资源,如果你开始泄漏寄存器,你会浪费很多时间没有充分的理由; 为什么要浪费一个通过所有的功能只是为了保持零？(仍然,考虑一下,我不记得在使用这种"零寄存器"模式的函数中看到很多寄存器溢出).

那么:我错过了什么？它是一个编译器blooper还是一些令人难以置信的智能优化,在2010年特别有趣？

这是一段摘录:

    ; standard prologue: ebp/esp, SEH, overflow protection, ... then:
    xor     ebx, ebx
    mov     [ebp+4], ebx        ; zero out some locals
    mov     [ebp], ebx
    call    function_1
    xor     ecx, ecx            ; ebx _not_ used to zero registers
    cmp     eax, ebx            ; ... …

Run Code Online (Sandbox Code Playgroud)

x86 assembly visual-c++ visual-c++-2010

Mat*_*lia

2017 01-01

7
推荐指数

1
解决办法

152
查看次数

在Knights Landing上清除单个或几个ZMM寄存器的最有效方法是什么？

说,我想清除4个zmm寄存器.

以下代码是否会提供最快的速度？

vpxorq  zmm0, zmm0, zmm0
vpxorq  zmm1, zmm1, zmm1
vpxorq  zmm2, zmm2, zmm2
vpxorq  zmm3, zmm3, zmm3

Run Code Online (Sandbox Code Playgroud)

在AVX2上,如果我想清除ymm寄存器,vpxor比vxorps更快,速度更快,因为vpxor可以在多个单元上运行.

在AVX512上,我们没有用于zmm寄存器的vpxor,只有vpxorq和vpxord.这是清除寄存器的有效方法吗？当我使用vpxorq清除zmm寄存器时,CPU是否足够智能,不会对zmm寄存器的先前值产生错误依赖？

在没有物理AVX512 CPU测试的情况下 - 也许有人在Knights Landing上测试过？是否有任何延迟发布？

assembly avx xeon-phi avx512 knights-landing

Max*_*tin

2017 06-16

7
推荐指数

2
解决办法

886
查看次数

指令长度

我正在查看汇编中的不同指令,我对如何决定不同操作数和操作码的长度感到困惑.

这是你应该从经验中得知的东西,还是有办法找出哪个操作数/运算符组合占用了多少字节？

例如:

push %ebp ; takes up one byte
mov %esp, %ebp ; takes up two bytes

Run Code Online (Sandbox Code Playgroud)

所以问题是:

在看到给定的指令后,如何推断出其操作码需要多少字节？

x86 assembly instruction-set machine-code code-size

作者

2018 02-20

5
推荐指数

2
解决办法

3790
查看次数

获取16或32字节固定大小缓冲区的C字符串长度？（XMM或YMM寄存器宽度）

是否有任何方法可以通过将其加载到XMM或YMM寄存器中来获取存储在16字节或32字节缓冲区中的ASCII字符串的长度？本质上，我正在寻找第一个零字节的索引（以位或字节为单位）。

我的目标是避免循环和分支。我希望在AVX或SSE中，沿着BSF（向前扫描位）的方式存在某种东西，但是对字节而非位进行操作。

也许像下面这样？

_my_constant_time_strlen:
 vpxor ymm0, ymm0
 VPCMPEQB ymm0, ymm0, [rdi]
 vpmovmskb eax, ymm0
 bsf eax, eax
 ; string length is in eax?

   ; and rax, 31              ; editor's note: useless AND
 ret

Run Code Online (Sandbox Code Playgroud)

x86 assembly sse strlen avx2

作者

2019 06-05

4
推荐指数

1
解决办法

92
查看次数