相关疑难解决方法(0)

你如何设置,清除和切换一个位？

如何在C/C++中设置,清除和切换？

c c++ bit-manipulation bitwise-operators

Jef*_*ffV

2019 08-23

2454
推荐指数

25
解决办法

111万
查看次数

在x86汇编中将寄存器设置为零的最佳方法是什么:xor,mov或？

以下所有说明都做同样的事情:设置%eax为零.哪种方式最佳(需要最少的机器周期)？

xorl   %eax, %eax
mov    $0, %eax
andl   $0, %eax

Run Code Online (Sandbox Code Playgroud)

optimization performance x86 assembly micro-optimization

bal*_*c55

2016 06-07

109
推荐指数

1
解决办法

4万
查看次数

为什么32位寄存器上的x86-64指令归零整个64位寄存器的上半部分？

在x86-64 Tour of Intel Manuals中,我读到了

也许最令人惊讶的事实是,诸如MOV EAX, EBX自动将指令的高32位归零的指令RAX.

同一来源引用的英特尔文档(3.4.1.1 64位手动基本架构中的通用寄存器)告诉我们:

64位操作数在目标通用寄存器中生成64位结果.

32位操作数生成32位结果,在目标通用寄存器中零扩展为64位结果.

8位和16位操作数生成8位或16位结果.目标通用寄存器的高56位或48位(分别)不会被操作修改.如果8位或16位操作的结果用于64位地址计算,则将寄存器显式符号扩展为完整的64位.

在x86-32和x86-64汇编中,16位指令如

mov ax, bx

Run Code Online (Sandbox Code Playgroud)

不要表现出这种"奇怪"的行为,即eax的上层词被归零.

因此:引入这种行为的原因是什么？乍一看似乎不合逻辑(但原因可能是我习惯了x86-32汇编的怪癖).

x86 assembly x86-64 cpu-registers zero-extension

Nub*_*bok

2018 08-02

97
推荐指数

3
解决办法

2万
查看次数

为什么没有包含更高字节EAX的寄存器？

%AX = (%AH + %AL)

那么为什么不%EAX = (%SOME_REGISTER + %AX)注册%SOME_REGISTER呢？

x86 assembly

Sar*_*lon

2018 07-10

65
推荐指数

3
解决办法

5万
查看次数

Clang 和 GCC 对 movzx 的奇怪使用

我知道这movzx可以用于打破依赖关系，但我偶然发现了movzxClang 和 GCC 的一些用途，我真的看不出它们有什么用处。这是我在 Godbolt 编译器浏览器上尝试的一个简单示例：

#include <stdint.h>

int add2bytes(uint8_t* a, uint8_t* b) {
    return uint8_t(*a + *b);
}

Run Code Online (Sandbox Code Playgroud)

与海湾合作委员会 12 -O3：

add2bytes(unsigned char*, unsigned char*):
        movzx   eax, BYTE PTR [rsi]
        add     al, BYTE PTR [rdi]
        movzx   eax, al
        ret

Run Code Online (Sandbox Code Playgroud)

如果我理解正确的话，这里的第一个movzx打破了对先前eax值的依赖，但第二个是什么movzx做什么？我认为它不会破坏任何依赖关系，也不应该影响结果。

使用 clang 14 -O3，情况更加奇怪：

add2bytes(unsigned char*, unsigned char*):                       # @add2bytes(unsigned char*, unsigned char*)
        mov     al, byte ptr [rsi]
        add     al, byte ptr [rdi]
        movzx   eax, al
        ret …

Run Code Online (Sandbox Code Playgroud)

c++ x86 assembly gcc clang

Hin*_*tro

2022 07-17

53
推荐指数

2
解决办法

3028
查看次数

编译器中的布尔值为8位.对他们的操作是否效率低下？

我正在阅读Agner Fog的" 用C++优化软件 "(特定于英特尔,AMD和威盛的x86处理器),它在第34页说明

布尔变量存储为8位整数,值0表示false,1表示true.布尔变量是超定的,因为所有具有布尔变量作为输入的运算符检查输入是否具有除0或1之外的任何其他值,但是具有布尔值作为输出的运算符不能产生除0或1之外的其他值.布尔变量作为输入效率低于必要的效率.

这今天仍然适用于编译器吗？你能举个例子吗？作者说

如果确定操作数没有除0和1之外的其他值,则可以使布尔运算更有效.编译器没有做出这样的假设的原因是变量可能具有其他值,如果它们是未初始化或来自不明来源.

这是否意味着如果我拿一个函数指针bool(*)()作为示例并调用它,那么对它的操作会产生效率低下的代码？或者是通过取消引用指针或从引用读取然后对其进行操作来访问布尔值的情况？

c c++ optimization x86 boolean

Joh*_*itb

2017 11-12

46
推荐指数

2
解决办法

3608
查看次数

x86_64 将 64 位寄存器减少到 32 位并保留零或非零状态的最佳方法

我正在寻找最快/最节省空间的方法，将 64 位寄存器减少为 32 位寄存器，仅保留 64 位寄存器的零/非零状态。

我目前适用于所有值的最佳想法是popcntq
（1c tput，主流英特尔上的 3c 延迟，5 字节代码大小）：

// rax is either zero or non-zero
popcntq %rax, %rax
// eax will be zero if rax was zero, otherwise it will be non-zero

Run Code Online (Sandbox Code Playgroud)

注意：直接使用 32 位是行不通的eax：如果rax说的2^61零/非零状态eax与的不同rax

有没有更好的巧妙方法？

assembly x86-64 micro-optimization

Noa*_*oah

2021 09-23

38
推荐指数

2
解决办法

3239
查看次数

INC指令与ADD 1:重要吗？

来自Ira Baxter回答,为什么INC和DEC指令不会影响进位标志(CF)？

大多数情况下,我远离INC而DEC现在,因为他们做的部分条件代码更新,这样就可以在管道中引起滑稽的摊位,和ADD/ SUB没有.因此,无关紧要(大多数地方),我使用ADD/ SUB避免失速.我使用INC/ DEC仅在保持代码较小的情况下,例如,适合高速缓存行,其中一个或两个指令的大小产生足够的差异.这可能是毫无意义的纳米[字面意思!] - 优化,但我在编码习惯上相当老派.

我想问一下为什么它会导致管道中的停顿,而添加不会？毕竟,无论是ADD和INC更新标志寄存器.唯一的区别是INC不更新CF.但为什么重要呢？

performance x86 assembly increment micro-optimization

Gil*_*esz

2018 04-17

26
推荐指数

2
解决办法

4234
查看次数

x86的MOV真的可以"免费"吗？为什么我不能重现这个呢？

我一直看到人们声称MOV指令可以在x86中免费,因为寄存器重命名.

对于我的生活,我无法在一个测试用例中验证这一点.每个测试用例我尝试揭穿它.

例如,这是我用Visual C++编译的代码:

#include <limits.h>
#include <stdio.h>
#include <time.h>

int main(void)
{
    unsigned int k, l, j;
    clock_t tstart = clock();
    for (k = 0, j = 0, l = 0; j < UINT_MAX; ++j)
    {
        ++k;
        k = j;     // <-- comment out this line to remove the MOV instruction
        l += j;
    }
    fprintf(stderr, "%d ms\n", (int)((clock() - tstart) * 1000 / CLOCKS_PER_SEC));
    fflush(stderr);
    return (int)(k + j + l);
}

Run Code Online (Sandbox Code Playgroud)

这为循环生成以下汇编代码(随意生成这个你想要的;你显然不需要Visual C++):

LOOP:
    add edi,esi
    mov …

Run Code Online (Sandbox Code Playgroud)

c x86 assembly cpu-registers micro-optimization

Meh*_*dad

2017 05-26

23
推荐指数

2
解决办法

2113
查看次数

为什么这个函数将RAX作为第一个操作推送到堆栈？

在下面的C++源代码的汇编中.为什么RAX被推入堆栈？

正如我从ABI理解的那样,RAX可以包含来自调用函数的任何内容.但是我们将它保存在这里,然后将堆栈移回8个字节.所以堆栈上的RAX,我认为只与std::__throw_bad_function_call()操作相关......？

代码:-

#include <functional> 

void f(std::function<void()> a) 
{
  a(); 
}

Run Code Online (Sandbox Code Playgroud)

gcc.godbolt.org使用Clang 3.7.1 -O3 输出:

f(std::function<void ()>):                  # @f(std::function<void ()>)
        push    rax
        cmp     qword ptr [rdi + 16], 0
        je      .LBB0_1
        add     rsp, 8
        jmp     qword ptr [rdi + 24]    # TAILCALL
.LBB0_1:
        call    std::__throw_bad_function_call()

Run Code Online (Sandbox Code Playgroud)

我确定原因很明显,但我很难弄清楚.

这是一个没有std::function<void()>包装器的尾部调用,用于比较:

void g(void(*a)())
{
  a(); 
}

Run Code Online (Sandbox Code Playgroud)

琐碎的:

g(void (*)()):             # @g(void (*)())
        jmp     rdi        # TAILCALL

Run Code Online (Sandbox Code Playgroud)

c++ x86 assembly x86-64 abi

JCx*_*JCx

2016 07-07

22
推荐指数

3
解决办法

2098
查看次数

标签统计

assembly ×8

x86 ×8

c++ ×4

micro-optimization ×4

c ×3

x86-64 ×3

cpu-registers ×2

optimization ×2

performance ×2

abi ×1

bit-manipulation ×1

bitwise-operators ×1

boolean ×1

clang ×1

gcc ×1

increment ×1

zero-extension ×1

标签 统计

标签统计