相关疑难解决方法(0)

在大多数处理器中,为什么L1缓存的大小小于L2缓存的大小？

memory caching processor cpu-architecture cpu-cache

Kar*_*uru

2018 06-12

29
推荐指数

3
解决办法

2万
查看次数

L1缓存命中的周期/成本与x86上的Register相比？

我记得假设在我的架构类中L1缓存命中是1个周期(即与寄存器访问时间相同),但在现代x86处理器上实际上是这样吗？

L1缓存命中多少个周期？它与寄存器访问相比如何？

performance x86 cpu-architecture micro-optimization cpu-cache

Meh*_*dad

2019 05-01

27
推荐指数

2
解决办法

2万
查看次数

当base + offset与基数不同时,是否存在惩罚？

这三个片段的执行时间:

pageboundary: dq (pageboundary + 8)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx - 8]
    sub ecx, 1
    jnz .loop

Run Code Online (Sandbox Code Playgroud)

还有这个:

pageboundary: dq (pageboundary - 8)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx + 8]
    sub ecx, 1
    jnz .loop

Run Code Online (Sandbox Code Playgroud)

还有这个:

pageboundary: dq (pageboundary - 4096)
...

    mov rdx, [rel pageboundary]
.loop:
    mov rdx, [rdx + 4096]
    sub ecx, 1
    jnz .loop

Run Code Online (Sandbox Code Playgroud)

对于第一个片段,在4770K上,每次迭代大约5个周期,对于第二个片段,每次迭代大约9个周期,然后是第三个片段的5个周期.它们都访问完全相同的地址,这是4K对齐的.在第二个片段中,只有地址计算跨越页面边界:rdx并且rdx + 8不属于同一页面,负载仍然是对齐的.如果偏移量很大,则会再次回到5个周期.

这种效果一般如何起作用？

通过ALU指令从加载路由结果,如下所示:

.loop:
    mov rdx, …

Run Code Online (Sandbox Code Playgroud)

performance x86 assembly micro-optimization

har*_*old

2018 09-19

11
推荐指数

1
解决办法

456
查看次数

intel core i7处理器使用哪种缓存映射技术？

我已经了解了不同的缓存映射技术,如直接映射,关联映射和集合关联映射技术,还学习了权衡.但我很好奇现在在intel core i7或AMD处理器中使用了什么.以及这些技术是如何演变的.还有哪些事情需要改进？

x86 amd intel cpu-architecture cpu-cache

Sub*_*dip

2018 03-05

8
推荐指数

1
解决办法

2255
查看次数

缓慢的jmp指令

作为我的问题的后续问题在x86-64中使用32位寄存器/指令的优点,我开始测量指令的成本.我知道这已经多次完成了(例如Agner Fog),但我这样做是为了娱乐和自我教育.

我的测试代码非常简单(为简单起见,这里是伪代码,实际上是汇编程序):

for(outer_loop=0; outer_loop<NO;outer_loop++){
    operation  #first
    operation  #second
    ...
    operation #NI-th
}

Run Code Online (Sandbox Code Playgroud)

但是应该考虑一些事情.

如果循环的内部部分很大(大NI>10^7),则循环的整个内容不适合指令高速缓存,因此必须一遍又一遍地加载,使得RAM的速度定义执行所需的时间.例如,对于大的内部部分,xorl %eax, %eax(2个字节)比xorq %rax, %rax(3个字节)快33%.
如果NI是小,整个循环可轻松放入指令缓存,比xorl %eax, %eax和xorq %rax, %rax同样快速,可以执行每时钟周期的4倍.

然而,这个简单的模型并没有为jmp建筑提供水.对于jmp-instruction,我的测试代码如下所示:

for(outer_loop=0; outer_loop<NO;outer_loop++){
    jmp .L0
    .L0: jmp .L1
    L1: jmp L2
    ....
}

Run Code Online (Sandbox Code Playgroud)

结果是:

对于"大"循环大小(已经用于NI>10^4),我测量4.2 ns/ - jmp指令(相当于从RAM加载的42个字节或在我的机器上大约12个时钟周期).
对于小环路尺寸(NI<10^3),我测量1 ns/jmp-指令(大约3个时钟周期,听起来似乎合理--Agner Fog的表显示了2个时钟周期的成本).

该指令jmp LX使用2字节eb 00 …

performance x86 assembly intel cpu-architecture

ead*_*ead

2017 05-23

6
推荐指数

1
解决办法

1326
查看次数

推测执行的 CPU 分支是否可以包含访问 RAM 的操作码？

据我了解，当 CPU 推测性地执行一段代码时，它会在切换到推测性分支之前“备份”寄存器状态，以便如果预测结果错误（使分支无用）——寄存器状态将是安全恢复，而不会破坏“状态”。

所以，我的问题是：推测执行的 CPU 分支是否可以包含访问 RAM 的操作码？

我的意思是，访问 RAM 不是“原子”操作——如果数据当前不在 CPU 缓存中，那么从内存中读取一个简单的操作码可能会导致实际的 RAM 访问，这可能会变成一个非常耗时的操作，从 CPU 的角度来看。

如果在推测分支中确实允许这种访问，它是否仅用于读取操作？因为，我只能假设，如果一个分支被丢弃并执行“回滚”，根据它的大小恢复写操作可能会变得非常缓慢和棘手。而且，可以肯定的是，至少在某种程度上支持读/写操作，因为寄存器本身，在某些 CPU 上，据我所知，物理上位于 CPU 缓存上。

所以，也许更精确的表述是：推测执行的一段代码有什么限制？

cpu cpu-architecture speculative-execution

gol*_*sky

2020 10-02

4
推荐指数

1
解决办法

518
查看次数

标签统计

cpu-architecture ×5

x86 ×4

cpu-cache ×3

performance ×3

assembly ×2

intel ×2

micro-optimization ×2

amd ×1

caching ×1

cpu ×1

memory ×1

processor ×1

speculative-execution ×1

在大多数处理器中,为什么L1缓存的大小小于L2缓存的大小？

L1缓存命中的周期/成本与x86上的Register相比？

当base + offset与基数不同时,是否存在惩罚？

intel core i7处理器使用哪种缓存映射技术？

缓慢的jmp指令

推测执行的 CPU 分支是否可以包含访问 RAM 的操作码？

标签 统计

标签统计