相关疑难解决方法(0)

当base + offset与基数不同时,是否存在惩罚？

这三个片段的执行时间:

pageboundary: dq (pageboundary + 8)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx - 8]
    sub ecx, 1
    jnz .loop

Run Code Online (Sandbox Code Playgroud)

还有这个:

pageboundary: dq (pageboundary - 8)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx + 8]
    sub ecx, 1
    jnz .loop

Run Code Online (Sandbox Code Playgroud)

还有这个:

pageboundary: dq (pageboundary - 4096)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx + 4096]
    sub ecx, 1
    jnz .loop

Run Code Online (Sandbox Code Playgroud)

对于第一个片段,在4770K上,每次迭代大约5个周期,对于第二个片段,每次迭代大约9个周期,然后是第三个片段的5个周期.它们都访问完全相同的地址,这是4K对齐的.在第二个片段中,只有地址计算跨越页面边界:rdx并且rdx + 8不属于同一页面,负载仍然是对齐的.如果偏移量很大,则会再次回到5个周期.

这种效果一般如何起作用？

通过ALU指令从加载路由结果,如下所示:

.loop:
    mov rdx, …

Run Code Online (Sandbox Code Playgroud)

performance x86 assembly micro-optimization

har*_*old

2018 09-19

11
推荐指数

1
解决办法

456
查看次数

如何解读uops.info？

我在 uops.info 上查找了指令VMOVDQA，试图找出 (1) 延迟是多少，以及 (2) 我可以执行多少个并发负载？

我在解释结果时遇到困难（下面的屏幕截图，上面也有链接）：

该指令的不同变体意味着什么？例如A64 Z (ZMM, K, ZMM)vs A64 (ZMM, K, ZMM)?\n
- 它似乎为参数提供了不同的类型，也许表明哪些参数在寄存器中？但我不知道如何阅读该符号。
\n
为什么有时有两个延迟数字，例如[\xe2\x89\xa410;\xe2\x89\xa411]？这是否表示延迟范围，如果是，我可以计算出我的用例的确切延迟吗？
我应该如何解释吞吐量 (TP) 列？

非常感谢任何对此的指示！

x86 assembly x86-64 simd avx512

Ell*_*sky

2022 03-10

4
推荐指数

1
解决办法

617
查看次数

添加冗余分配可在编译时加速代码而无需优化

我发现了一个有趣的现象:

#include<stdio.h>
#include<time.h>

int main() {
    int p, q;
    clock_t s,e;
    s=clock();
    for(int i = 1; i < 1000; i++){
        for(int j = 1; j < 1000; j++){
            for(int k = 1; k < 1000; k++){
                p = i + j * k;
                q = p;  //Removing this line can increase running time.
            }
        }
    }
    e = clock();
    double t = (double)(e - s) / CLOCKS_PER_SEC;
    printf("%lf\n", t);
    return 0;
}

Run Code Online (Sandbox Code Playgroud)

我在i5-5257U Mac OS上使用GCC 7.3.0来编译代码 …

performance x86 assembly

hel*_*qiu

2018 03-10

3
推荐指数

1
解决办法

627
查看次数