相关疑难解决方法(0)

用于测试Collatz猜想的C++代码比手写程序集更快 - 为什么？

我为Project Euler Q14编写了这两个解决方案,在汇编和C++中.它们是用于测试Collatz猜想的相同蛮力方法.装配解决方案与组装

nasm -felf64 p14.asm && gcc p14.o -o p14

Run Code Online (Sandbox Code Playgroud)

C++是用.编译的

g++ p14.cpp -o p14

Run Code Online (Sandbox Code Playgroud)

部件, p14.asm

section .data
    fmt db "%d", 10, 0

global main
extern printf

section .text

main:
    mov rcx, 1000000
    xor rdi, rdi        ; max i
    xor rsi, rsi        ; i

l1:
    dec rcx
    xor r10, r10        ; count
    mov rax, rcx

l2:
    test rax, 1
    jpe even

    mov rbx, 3
    mul rbx
    inc rax
    jmp c1

even:
    mov rbx, 2 …

Run Code Online (Sandbox Code Playgroud)

c++ optimization performance x86 assembly

jef*_*son

2018 08-05

803
推荐指数

8
解决办法

14万
查看次数

如何实现每个周期4个FLOP的理论最大值？

如何在现代x86-64 Intel CPU上实现每个周期4个浮点运算(双精度)的理论峰值性能？

据我所知,SSE 需要三个周期,add而mul大多数现代Intel CPU需要五个周期才能完成(参见例如Agner Fog的"指令表").由于流水线操作,add如果算法具有至少三个独立的求和,则每个周期可以获得一个吞吐量.因为打包addpd和标量addsd版本都是如此,并且SSE寄存器可以包含两个,double每个周期的吞吐量可以高达两个触发器.

此外,似乎(虽然我没有看到任何适当的文档)add并且mul可以并行执行,给出每个周期四个触发器的理论最大吞吐量.

但是,我无法使用简单的C/C++程序复制该性能.我最好的尝试导致大约2.7个翻牌/周期.如果有人可以贡献一个简单的C/C++或汇编程序,它可以表现出非常高兴的峰值性能.

我的尝试:

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <sys/time.h>

double stoptime(void) {
   struct timeval t;
   gettimeofday(&t,NULL);
   return (double) t.tv_sec + t.tv_usec/1000000.0;
}

double addmul(double add, double mul, int ops){
   // Need to initialise differently otherwise compiler might optimise away
   double sum1=0.1, sum2=-0.1, sum3=0.2, sum4=-0.2, sum5=0.0;
   double mul1=1.0, mul2= 1.1, mul3=1.2, mul4= 1.3, …

Run Code Online (Sandbox Code Playgroud)

c c++ architecture optimization assembly

use*_*432

2019 04-18

618
推荐指数

4
解决办法

7万
查看次数

每个程序员应该了解的内存？

我想知道Ulrich Drepper 从2007年开始对每个程序员应该知道的内容有多少仍然有效.另外,我找不到比1.0更新的版本或勘误表.

optimization x86 memory-management cpu-architecture micro-optimization

Fra*_*ter

2017 12-08

145
推荐指数

3
解决办法

2万
查看次数

为什么32位寄存器上的x86-64指令归零整个64位寄存器的上半部分？

在x86-64 Tour of Intel Manuals中,我读到了

也许最令人惊讶的事实是,诸如MOV EAX, EBX自动将指令的高32位归零的指令RAX.

同一来源引用的英特尔文档(3.4.1.1 64位手动基本架构中的通用寄存器)告诉我们:

64位操作数在目标通用寄存器中生成64位结果.

32位操作数生成32位结果,在目标通用寄存器中零扩展为64位结果.

8位和16位操作数生成8位或16位结果.目标通用寄存器的高56位或48位(分别)不会被操作修改.如果8位或16位操作的结果用于64位地址计算,则将寄存器显式符号扩展为完整的64位.

在x86-32和x86-64汇编中,16位指令如

mov ax, bx

Run Code Online (Sandbox Code Playgroud)

不要表现出这种"奇怪"的行为,即eax的上层词被归零.

因此:引入这种行为的原因是什么？乍一看似乎不合逻辑(但原因可能是我习惯了x86-32汇编的怪癖).

x86 assembly x86-64 cpu-registers zero-extension

Nub*_*bok

2018 08-02

97
推荐指数

3
解决办法

2万
查看次数

哪个更快:x << 1或x << 10？

我不想优化任何东西,我发誓,我只想出于好奇而问这个问题.我知道,在大多数硬件有位移(例如的组件的命令shl,shr),它是一个命令.但是,你转移了多少比特(纳秒级,或CPU技巧)是否重要？换句话说,在任何CPU上是否更快？

x << 1;

Run Code Online (Sandbox Code Playgroud)

和

x << 10;

Run Code Online (Sandbox Code Playgroud)

请不要因为这个问题而恨我.:)

c c++ cpu performance low-level

Arm*_*yan

2011 08-06

82
推荐指数

8
解决办法

7018
查看次数

Clang 和 GCC 对 movzx 的奇怪使用

我知道这movzx可以用于打破依赖关系，但我偶然发现了movzxClang 和 GCC 的一些用途，我真的看不出它们有什么用处。这是我在 Godbolt 编译器浏览器上尝试的一个简单示例：

#include <stdint.h>

int add2bytes(uint8_t* a, uint8_t* b) {
    return uint8_t(*a + *b);
}

Run Code Online (Sandbox Code Playgroud)

与海湾合作委员会 12 -O3：

add2bytes(unsigned char*, unsigned char*):
        movzx   eax, BYTE PTR [rsi]
        add     al, BYTE PTR [rdi]
        movzx   eax, al
        ret

Run Code Online (Sandbox Code Playgroud)

如果我理解正确的话，这里的第一个movzx打破了对先前eax值的依赖，但第二个是什么movzx做什么？我认为它不会破坏任何依赖关系，也不应该影响结果。

使用 clang 14 -O3，情况更加奇怪：

add2bytes(unsigned char*, unsigned char*):                       # @add2bytes(unsigned char*, unsigned char*)
        mov     al, byte ptr [rsi]
        add     al, byte ptr [rdi]
        movzx   eax, al
        ret …

Run Code Online (Sandbox Code Playgroud)

c++ x86 assembly gcc clang

Hin*_*tro

2022 07-17

53
推荐指数

2
解决办法

3028
查看次数

微融合和寻址模式

我使用英特尔®架构代码分析器(IACA)发现了一些意想不到的东西(对我而言).

以下指令使用[base+index]寻址

addps xmm1, xmmword ptr [rsi+rax*1]

Run Code Online (Sandbox Code Playgroud)

根据IACA没有微熔丝.但是,如果我用[base+offset]这样的

addps xmm1, xmmword ptr [rsi]

Run Code Online (Sandbox Code Playgroud)

IACA报告它确实融合了.

英特尔优化参考手册的第2-11节给出了以下"可以由所有解码器处理的微融合微操作"的示例

FADD DOUBLE PTR [RDI + RSI*8]

Run Code Online (Sandbox Code Playgroud)

和Agner Fog的优化装配手册也给出了使用[base+index]寻址的微操作融合的例子.例如,请参见第12.2节"Core2上的相同示例".那么正确的答案是什么？

cpu x86 assembly intel iaca

Z b*_*son

2015 11-08

44
推荐指数

4
解决办法

4504
查看次数

为什么 __int128_t 在 x86-64 GCC 上比 long long 快？

这是我的测试代码：

#include <chrono>
#include <iostream>
#include <cstdlib>
using namespace std;

using ll = long long;

int main()
{
    __int128_t a, b;
    ll x, y;

    a = rand() + 10000000;
    b = rand() % 50000;
    auto t0 = chrono::steady_clock::now();
    for (int i = 0; i < 100000000; i++)
    {
        a += b;
        a /= b;
        b *= a;
        b -= a;
        a %= b;
    }
    cout << chrono::duration_cast<chrono::milliseconds>(chrono::steady_clock::now() - t0).count() << ' '
         << (ll)a % 100000 << '\n';

    x = …

Run Code Online (Sandbox Code Playgroud)

c++ performance x86-64 cpu-architecture integer-division

xxh*_*hxx

2020 07-22

43
推荐指数

2
解决办法

3808
查看次数

汇编语言 - 如何模数？

在x86汇编程序中有类似模运算符的东西吗？

x86 assembly modulo integer-division

enn*_*e87

2019 08-10

34
推荐指数

2
解决办法

10万
查看次数

如何安排x86 uops？

现代x86 CPU将传入的指令流分解为微操作(uops ¹),然后在输入准备就绪时将这些uop 无序调度.虽然基本思路很清楚,但我想了解准备好指令的具体细节,因为它会影响微优化决策.

例如,采取以下玩具循环²:

top:
lea eax, [ecx + 5]
popcnt eax, eax
add edi, eax
dec ecx
jnz top

Run Code Online (Sandbox Code Playgroud)

这基本上实现了循环(具有以下对应关系:) eax -> total, c -> ecx:

do {
  total += popcnt(c + 5);
} while (--c > 0);

Run Code Online (Sandbox Code Playgroud)

通过查看uop细分,依赖链延迟等,我熟悉优化任何小循环的过程.在上面的循环中,我们只有一个携带的依赖链:dec ecx.环路(前三指令lea,imul,add)是开始新鲜每个环一个依赖关系链的一部分.

决赛dec和jne融合.因此,我们总共有4个融合域uop,以及一个仅循环携带的依赖链,延迟为1个周期.因此,基于该标准,似乎循环可以在1个周期/迭代时执行.

但是,我们也应该关注港口压力:

在lea能够在端口1和5执行
popcnt可以在端口1上执行
在add可以在端口0,1,5和6执行
预测采用jnz在端口6上执行

因此,要进行1次循环/迭代,您几乎需要执行以下操作:

popcnt 必须在端口1上执行(它可以执行的唯一端口)
在lea 必须 …

optimization performance x86 intel cpu-architecture

Bee*_*ope

2019 10-17

32
推荐指数

2
解决办法

2907
查看次数

标签统计

x86 ×7

assembly ×6

c++ ×5

optimization ×4

performance ×4

cpu-architecture ×3

c ×2

cpu ×2

integer-division ×2

intel ×2

x86-64 ×2

architecture ×1

clang ×1

cpu-registers ×1

gcc ×1

iaca ×1

low-level ×1

memory-management ×1

micro-optimization ×1

modulo ×1

zero-extension ×1

标签 统计

标签统计