我试图理解性能事件的含义:dTLB 加载和 dTLB 存储?
我有一个Intel(R) Core(TM) i7-4720HQ CPU @ 2.60GHz( Haswell) 处理器。AFAIK计算DRAM (即)数据读取访问mem_load_uops_retired.l3_miss的数量。顾名思义,计算针对 DRAM 的数据读取次数。因此,这两个事件看起来是等价的(或者至少几乎相同)。但根据以下基准,前一个事件比后者发生的频率要低得多:demandnon-prefetchoffcore_response.demand_data_rd.l3_miss.local_dramdemand
1) 在循环中初始化 1000 个元素的全局数组C:
Performance counter stats for '/home/ahmad/Simple Progs/loop':
1,363 mem_load_uops_retired.l3_miss
1,543 offcore_response.demand_data_rd.l3_miss.local_dram
0.000749574 seconds time elapsed
0.000778000 seconds user
0.000000000 seconds sys
Run Code Online (Sandbox Code Playgroud)
2)在Evince中打开PDF文档:
Performance counter stats for '/opt/evince-3.28.4/bin/evince':
936,152 mem_load_uops_retired.l3_miss
1,853,998 offcore_response.demand_data_rd.l3_miss.local_dram
4.346408203 seconds time elapsed
1.644826000 seconds user
0.103411000 seconds sys
Run Code Online (Sandbox Code Playgroud)
3)运行Wireshark 5秒:
Performance counter stats …Run Code Online (Sandbox Code Playgroud) 我正在试验非时间指令,并且已经熟悉具有普通加载/存储的围栏如何操作。
Intel 定义了一个与非时间操作相关的内在,_mm_sfence,手册将其定义为:
保证每个前面的商店在任何后续商店之前都是全局可见的。
我对这个操作有一些疑问。
这个问题是关于 32 位与 64 位 x86 的术语。
如果我有 2 个包含相同程序源代码的目录 - 一个用于 32 位 Windows,另一个用于 64 位 Windows,那么这些文件夹的更正确名称是什么:
我已经阅读了一些网络资源,但无法理解。仅作记录:
对于分析,我们可以在 Linux 中使用 perf。但所有示例仅显示可执行文件。
在 CentOS 中,是否可以在正在运行的进程或守护程序上运行 perf 工具?
我的教科书(计算机系统:程序员的观点)指出,当一系列操作必须严格按顺序执行时,就会遇到延迟界限,而吞吐量界限则表征处理器功能单元的原始计算能力。
课本5.5、5.6题介绍了这两种可能的多项式计算循环结构
double result = a[0];
double xpwr = x;
for (int i = 1; i <= degree; i++) {
result += a[i] * xpwr;
xpwr = x * xpwr;
}
Run Code Online (Sandbox Code Playgroud)
和
double result = a[degree];
double xpwr = x;
for (int i = degree - 1; i >= 0; i--) {
result = a[i] + x * result;
}
Run Code Online (Sandbox Code Playgroud)
假设循环在具有以下执行单元的微体系结构上执行:
为这个问题给出的浮点乘法和加法的延迟界限分别是 5.0 和 3.0。根据答案键,第一个循环的总循环延迟是每个元素 5.0 个周期,第二个是每个元素 8.0 个周期。我不明白为什么第一个循环不是 8.0。
似乎 a[i] …
因此,对于以下序列:0001000111000
期望的结果将是:0001000000000
我完全清楚这可以通过使用汇编BSRL(或类似的bit-twiddling hack)找到MSB的索引然后>>将数字移位(索引 - 1),然后<<转换回(索引-1),但是我想知道是否有一个汇编指令或一系列具有更好性能的指令,而不是一个可以做到这一点的笨拙的黑客.