相关疑难解决方法(0)

unsigned gives32();
unsigned short gives16();

long sum32_64() {
  long total = 0;
  for (int i=1000; i--; ) {
    total += gives32();
  }
  return total;
}

long sum16_64() {
  long total = 0;
  for (int i=1000; i--; ) {
    total += …

Run Code Online (Sandbox Code Playgroud)

linux x86 x86-64 calling-convention

Bee*_*ope

2017 05-23

8
推荐指数

1
解决办法

403
查看次数

为什么 printf 仍然可以在 RAX 小于 XMM 寄存器中 FP 参数数量的情况下工作？

我正在关注Linux 64系统中的《开始x64汇编编程》一书。我正在使用 NASM 和 gcc。
在关于浮点运算的章节中，本书指定了以下用于添加 2 个浮点数的代码。在本书和其他在线资源中，我读到寄存器 RAX 根据调用约定指定要使用的 XMM 寄存器的数量。
书中的代码如下：

extern printf
section .data
num1        dq  9.0
num2        dq  73.0
fmt     db  "The numbers are %f and %f",10,0
f_sum       db  "%f + %f = %f",10,0

section .text
global main
main:
    push rbp
    mov rbp, rsp
printn:
    movsd xmm0, [num1]
    movsd xmm1, [num2]
    mov rdi, fmt
    mov rax, 2      ;for printf rax specifies amount of xmm registers
    call printf

sum:
    movsd xmm2, [num1]
    addsd xmm2, [num2]
printsum:
    movsd …

Run Code Online (Sandbox Code Playgroud)

linux assembly x86-64 nasm calling-convention

pes*_*san

2022 04-25

8
推荐指数

1
解决办法

275
查看次数

缺少优化： mov al, [mem] 位域将新的低字节插入整数

我想替换整数中的最低字节。在 x86 上这确实是这样mov al, [mem]，但我似乎无法让编译器输出它。我是否遗漏了一个明显的可识别代码模式，我是否误解了某些内容，或者这只是一个错过的优化？

unsigned insert_1(const unsigned* a, const unsigned char* b)
{
    return (*a & ~255) | *b;
}
unsigned insert_2(const unsigned* a, const unsigned char* b)
{
    return *a >> 8 << 8 | *b;
}

Run Code Online (Sandbox Code Playgroud)

GCC 实际上使用al但只是为了归零。

        mov     eax, DWORD PTR [rdi]
        movzx   edx, BYTE PTR [rsi]
        xor     al, al
        or      eax, edx
        ret

Run Code Online (Sandbox Code Playgroud)

Clang 几乎逐字编译两者

        mov     ecx, -256
        and     ecx, dword ptr [rdi]
        movzx   eax, byte ptr [rsi]
        or      eax, ecx …

Run Code Online (Sandbox Code Playgroud)

c assembly x86-64 micro-optimization

Hom*_*512

2023 06-23

8
推荐指数

1
解决办法

202
查看次数

使用FPU和MMX寄存器作为"通用寄存器"

大多数汇编程序利用4个通用寄存器eax ebx ecx edx,但我发现,很多时候我需要使用超过4个寄存器来轻松地完成我的任务,而不必push和pop从堆栈得多.由于我的程序无意使用FPU或MMX寄存器进行浮点计算或"预期用途",在程序中使用这些额外的寄存器是否可以接受？

例如.使用xmm0一个循环递增计数器腾出ecx寄存器做其他事情.

x86 assembly cpu-registers

use*_*545

2013 02-23

7
推荐指数

1
解决办法

852
查看次数

在x86-64中使用32位寄存器/指令的优点

有时gcc使用32位寄存器,当我希望它使用64位寄存器时.例如以下C代码:

unsigned long long 
div(unsigned long long a, unsigned long long b){
    return a/b;
}

Run Code Online (Sandbox Code Playgroud)

使用-O2选项编译(省略一些样板文件):

div:
    movq    %rdi, %rax
    xorl    %edx, %edx
    divq    %rsi
    ret

Run Code Online (Sandbox Code Playgroud)

对于无符号除法,寄存器%rdx需要0.这可以通过xorq %rdx, %rdx但xorl %edx, %edx似乎具有相同的效果来实现.

至少在我的机器上没有性能提升(即加速)进行xorl了xorq.

我实际上不只是一个问题:

为什么gcc更喜欢32位版本？
为什么gcc会停止xorl并且不使用xorw？
有没有xorl比这更快的机器xorq？
如果可能的话,总是更喜欢32位寄存器/操作而不是64位寄存器/操作吗？

assembly gcc x86-64 micro-optimization

ead*_*ead

2019 10-28

7
推荐指数

2
解决办法

749
查看次数

为什么EAX中的高16位不能按名称访问(如AX,AH和AL)？

为什么没有特定的寄存器来访问寄存器的其他部分(16-32)？

像啊或al一样访问ax寄存器的8位部分.

在此输入图像描述

x86 assembly

Ale*_*dre

2015 02-10

6
推荐指数

2
解决办法

717
查看次数

在8位字段上比在32位字段上使用CMPXCHG指令在任何方面是否更糟？

我想问一下CMPXCHG在8位内存字段上使用指令是否比在32位字段上使用指令更糟糕。

我正在使用C11 stdatomic.h来实现一些同步方法。

c x86 assembly instruction-set c11

Dew*_*ewr

2019 10-03

6
推荐指数

1
解决办法

61
查看次数

优化第 7 代英特尔酷睿视频 RAM 中递增的 ASCII 十进制计数器

我正在尝试针对特定的 Kaby Lake CPU (i5-7300HQ) 优化以下子例程，理想情况下，与原始形式相比，代码速度至少快 10 倍。该代码在 16 位实模式下作为软盘式引导加载程序运行。它在屏幕上显示一个十位数的十进制计数器，从 0 - 9999999999 计数然后停止。

我查看了 Agner 的微体系结构和汇编优化指南、指令性能表和英特尔的优化参考手册。

到目前为止，我能够做的唯一明智的优化是将loop指令交换为dec + jnz，在此处进行解释。

另一种可能的优化可能是交换lodsbfor mov + dec，但我发现的关于它的信息一直存在冲突，有些人说它有一点帮助，而另一些人则认为它实际上可能会损害现代 CPU 的性能。

我还尝试切换到 32 位模式并将整个计数器保留在一个未使用的寄存器对中以消除任何内存访问，但在读入一点后我意识到这十位将立即被缓存，并且 L1 缓存之间的延迟差异和寄存器只有大约三倍，所以绝对不值得以这种格式使用计数器的额外开销。

（编者注：add reg延迟为 1 个周期，add [mem]延迟约为 6 个周期，包括 5 个周期的存储转发延迟。如果[mem]像视频 RAM 那样不可缓存，则更糟。）

org 7c00h

pos equ 2*(2*80-2)  ;address on screen

;init
cli
mov ax,3
int 10h
mov …

Run Code Online (Sandbox Code Playgroud)

optimization x86 assembly intel bootloader

Eld*_*dan

2020 05-01

6
推荐指数

1
解决办法

258
查看次数

基于标量整数条件的 AVX 向量寄存器的条件移动（cmov）？

对于 64 位寄存器，有CMOV cc A, B指令，仅在满足条件时B写入：Acc

; Do rax <- rdx iff rcx == 0
test rcx, rcx
cmove rax, rdx

Run Code Online (Sandbox Code Playgroud)

但是，我找不到任何与 AVX 等效的东西。我仍然想根据的值移动RFLAGS，只是使用更大的操作数：

; Do ymm1 <- ymm2 iff rcx == 0
test rcx, rcx
cmove ymm1, ymm2  (invalid)

Run Code Online (Sandbox Code Playgroud)

有 AVX 等效项吗cmov？如果没有，我怎样才能以无分支的方式实现这个操作？

x86 assembly avx avx2 conditional-move

Jan*_*ann

2021 05-03

6
推荐指数

1
解决办法

1253
查看次数

标签统计

assembly ×9

x86 ×7

x86-64 ×4

micro-optimization ×3

c ×2

calling-convention ×2

linux ×2

optimization ×2

avx ×1

avx2 ×1

bootloader ×1

c11 ×1

conditional-move ×1

cpu-registers ×1

gcc ×1

instruction-set ×1

intel ×1

nasm ×1

标签 统计

标签统计