相关疑难解决方法(0)

当base + offset与基数不同时,是否存在惩罚?

这三个片段的执行时间:

pageboundary: dq (pageboundary + 8)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx - 8]
    sub ecx, 1
    jnz .loop
Run Code Online (Sandbox Code Playgroud)

还有这个:

pageboundary: dq (pageboundary - 8)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx + 8]
    sub ecx, 1
    jnz .loop
Run Code Online (Sandbox Code Playgroud)

还有这个:

pageboundary: dq (pageboundary - 4096)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx + 4096]
    sub ecx, 1
    jnz .loop
Run Code Online (Sandbox Code Playgroud)

对于第一个片段,在4770K上,每次迭代大约5个周期,对于第二个片段,每次迭代大约9个周期,然后是第三个片段的5个周期.它们都访问完全相同的地址,这是4K对齐的.在第二个片段中,只有地址计算跨越页面边界:rdx并且rdx + 8不属于同一页面,负载仍然是对齐的.如果偏移量很大,则会再次回到5个周期.

这种效果一般如何起作用?


通过ALU指令从加载路由结果,如下所示:

.loop:
    mov rdx, …
Run Code Online (Sandbox Code Playgroud)

performance x86 assembly micro-optimization

11
推荐指数
1
解决办法
456
查看次数

如何解读uops.info?

我在 uops.info 上查找了指令VMOVDQA,试图找出 (1) 延迟是多少,以及 (2) 我可以执行多少个并发负载?

\n

我在解释结果时遇到困难(下面的屏幕截图,上面也有链接):

\n
    \n
  • 该指令的不同变体意味着什么?例如A64 Z (ZMM, K, ZMM)vs A64 (ZMM, K, ZMM)?\n
      \n
    • 它似乎为参数提供了不同的类型,也许表明哪些参数在寄存器中?但我不知道如何阅读该符号。
    • \n
    \n
  • \n
  • 为什么有时有两个延迟数字,例如[\xe2\x89\xa410;\xe2\x89\xa411]?这是否表示延迟范围,如果是,我可以计算出我的用例的确切延迟吗?
  • \n
  • 我应该如何解释吞吐量 (TP) 列?
  • \n
\n

非常感谢任何对此的指示!

\n

uops.info 的屏幕截图

\n

x86 assembly x86-64 simd avx512

4
推荐指数
1
解决办法
617
查看次数

添加冗余分配可在编译时加速代码而无需优化

我发现了一个有趣的现象:

#include<stdio.h>
#include<time.h>

int main() {
    int p, q;
    clock_t s,e;
    s=clock();
    for(int i = 1; i < 1000; i++){
        for(int j = 1; j < 1000; j++){
            for(int k = 1; k < 1000; k++){
                p = i + j * k;
                q = p;  //Removing this line can increase running time.
            }
        }
    }
    e = clock();
    double t = (double)(e - s) / CLOCKS_PER_SEC;
    printf("%lf\n", t);
    return 0;
}
Run Code Online (Sandbox Code Playgroud)

我在i5-5257U Mac OS上使用GCC 7.3.0来编译代码 …

performance x86 assembly

3
推荐指数
1
解决办法
627
查看次数

标签 统计

assembly ×3

x86 ×3

performance ×2

avx512 ×1

micro-optimization ×1

simd ×1

x86-64 ×1