相关疑难解决方法(0)

REP做什么设置？

引用英特尔 ®64 和IA-32架构优化参考手册,§2.4.6"REP String Enhancement":

使用REP字符串的性能特征可归因于两个组件: 启动开销和数据传输吞吐量.

[...]

对于较大粒度数据传输的REP字符串,随着ECX值的增加,REP String的启动开销呈逐步增加:

短串(ECX <= 12):REP MOVSW/MOVSD/MOVSQ的延迟约为20个周期,

快速字符串(ECX> = 76:不包括REP MOVSB):处理器实现通过移动尽可能多的16字节数据来提供硬件优化.如果其中一个16字节数据传输跨越缓存行边界,则REP字符串延迟的延迟会有所不同:

无拆分:延迟包括大约40个周期的启动成本,每个64字节的数据增加4个周期,

高速缓存拆分:延迟包括大约35个周期的启动成本,每64个字节的数据增加6个周期.

中间字符串长度:REP MOVSW/MOVSD/MOVSQ的延迟具有大约15个周期的启动成本加上word/dword/qword中数据移动的每次迭代的一个周期.

(强调我的)

没有进一步提及这种启动成本.它是什么？它做了什么,为什么总是需要更多的时间？

optimization performance x86 assembly

edm*_*dmz

2018 07-18

13
推荐指数

2
解决办法

1615
查看次数

了解lfence对具有两个长依赖链的循环的影响,以增加长度

我正在玩这个答案的代码,稍微修改一下:

BITS 64

GLOBAL _start

SECTION .text

_start:
 mov ecx, 1000000

.loop:

 ;T is a symbol defined with the CLI (-DT=...)

 TIMES T imul eax, eax
 lfence
 TIMES T imul edx, edx


 dec ecx
jnz .loop

 mov eax, 60           ;sys_exit
 xor edi, edi
 syscall

Run Code Online (Sandbox Code Playgroud)

没有lfence我,我得到的结果与答案中的静态分析一致.

当我介绍一个单一 lfence我期望的CPU执行imul edx, edx的序列的第k个平行于迭代imul eax, eax的下一个(的序列K + 1个)迭代.
像这样的东西(调用一个的imul eax, eax序列和d的imul edx, edx一个): …

performance x86 assembly cpu-architecture perf

Mar*_*oom

2018 08-24

13
推荐指数

2
解决办法

472
查看次数

Branch Target Buffer检测到哪些分支错误预测？

我目前正在查看CPU管道的各个部分,它们可以检测分支错误预测.我发现这些是:

分支目标缓冲区(BPU CLEAR)
分支地址计算器(BA CLEAR)
跳转执行单元(这里不确定信号名称？)

我知道2和3检测到了什么,但我不明白在BTB中检测到了什么错误预测.BAC检测BTB错误地预测非分支指令的分支的位置,其中BTB未能检测到分支,或者BTB错误预测了x86 RET指令的目标地址.执行单元评估分支并确定它是否正确.

在分支目标缓冲区中检测到什么类型的错误预测？究竟在这里发现了什么错误预测？

我能找到的唯一线索是英特尔开发者手册第3卷(底部的两个BPU CLEAR事件计数器):

在此输入图像描述

BPU在错误地认为未采取分支后预测了一个分支.

这似乎暗示预测并非"同步",而是"异步",因此"在错误地假设"之后？

更新:

Ross,这是CPU分支电路,来自最初的英特尔专利(如何用于"阅读"？):

在此输入图像描述

我在任何地方都看不到"分支预测单位"？读过这篇论文的人会认为"BPU"是将BTB电路,BTB缓存,BAC和RSB分组在一起的懒惰方式吗？

所以我的问题仍然存在,哪个组件会引发BPU CLEAR信号？

optimization intel cpu-architecture computer-architecture branch-prediction

use*_*112

2015 07-13

10
推荐指数

2
解决办法

1080
查看次数

当Skylake CPU错误预测分支时会发生什么？

我试图详细了解当分支预测错误时，skylake CPU管道的各个阶段中的指令会发生什么，以及从正确的分支目标开始执行指令的速度如何。

因此，让我们在这里将两个代码路径标记为红色（一个预测但未实际采用）和绿色（一个已预测但未预期）。所以问题是：1.在红色指令开始被丢弃之前，分支必须经过管道多远（以及在管道的哪个阶段被丢弃）？2.绿色指令（在分支到达的流水线阶段方面）多久可以开始执行？

我看过Agner Fogg的文档和许多讲义，但这些观点并不清楚。

x86 intel cpu-architecture speculative-execution branch-prediction

Ste*_*ton

2018 06-23

5
推荐指数

1
解决办法

369
查看次数

在指令周期内如何执行微码？

从开放资源中，我可以得出结论，微代码大约可以直接由CPU执行，并负责实现指令代码。维基百科还指出，指令代码的每次执行都会经历fetch-decode-execute指令周期。但是，我找不到任何参考资料来说明在此三个阶段中如何执行微代码。所以我的问题是，微代码执行与指令周期之间的关系是什么？微码在指令执行的获取，解码和执行阶段如何工作？

同样，这个stackoverflow的答案是说，在现代的Intel CPU中，即使最简单的指令（例如DIV和）MOV也将在执行之前以微码进行编译，因此，如果有人真的可以用此类CPU的示例进行解释，那将是最好的。

cpu assembly cpu-architecture

gna*_*yil

lucky-day

2
推荐指数

1
解决办法

158
查看次数