mem_load_uops_retired.l3_miss 和 offcore_response.demand_data_rd.l3_miss.local_dram 事件之间的区别

The*_*mad 3 intel performancecounter memory-access perf intel-pmu

我有一个Intel(R) Core(TM) i7-4720HQ CPU @ 2.60GHz( Haswell) 处理器。AFAIK计算DRAM (即)数据读取访问mem_load_uops_retired.l3_miss的数量。顾名思义,计算针对 DRAM 的数据读取次数。因此,这两个事件看起来是等价的(或者至少几乎相同)。但根据以下基准,前一个事件比后者发生的频率要低得多:demandnon-prefetchoffcore_response.demand_data_rd.l3_miss.local_dramdemand

1) 在循环中初始化 1000 个元素的全局数组C

Performance counter stats for '/home/ahmad/Simple Progs/loop':

         1,363      mem_load_uops_retired.l3_miss                                   
         1,543      offcore_response.demand_data_rd.l3_miss.local_dram                                   

   0.000749574 seconds time elapsed

   0.000778000 seconds user
   0.000000000 seconds sys
Run Code Online (Sandbox Code Playgroud)

2)在Evince中打开PDF文档:

Performance counter stats for '/opt/evince-3.28.4/bin/evince':

       936,152      mem_load_uops_retired.l3_miss                                   
     1,853,998      offcore_response.demand_data_rd.l3_miss.local_dram                                   

   4.346408203 seconds time elapsed

   1.644826000 seconds user
   0.103411000 seconds sys
Run Code Online (Sandbox Code Playgroud)

3)运行Wireshark 5秒:

Performance counter stats for 'wireshark':

     5,161,671      mem_load_uops_retired.l3_miss                                   
     8,126,526      offcore_response.demand_data_rd.l3_miss.local_dram                                   

  15.713828395 seconds time elapsed

   0.904280000 seconds user
   0.693906000 seconds sys
Run Code Online (Sandbox Code Playgroud)

4) 在 Inkscape 中的图像上运行模糊滤镜:

Performance counter stats for 'inkscape':

    13,852,121      mem_load_uops_retired.l3_miss                                   
    23,475,970      offcore_response.demand_data_rd.l3_miss.local_dram                                   

  25.355643897 seconds time elapsed

   7.244404000 seconds user
   1.019895000 seconds sys
Run Code Online (Sandbox Code Playgroud)

所有四个基准测试中, 的频率offcore_response.demand_data_rd.l3_miss.local_dram几乎是的两倍mem_load_uops_retired.l3_miss。这合理吗?为什么?请告诉我基准测试是否太复杂且太粗粒度

Had*_*ais 5

据我(当前)所知,下表显示了 Haswell 上这两个事件之间的差异:

mem_load_uops_retired.l3_miss offcore_response.demand _data_rd.l3_miss.local_dram
可缓存的退役加载 Uop 每行每操作
可缓存的非退休加载 Uop
不可缓存的 WC 退休负载 Uops 每行一个事件
不可缓存的 UC 退休负载 Uops 可能发生
不可缓存的 WC 或 UC 非退休加载 Uop
任何类型的锁定负载到任何内存类型 可能发生 我不知道
旧版 IO 请求 可能发生
L1D 预取
L2 预取到 L2 或 L3
软件预取,无意写入
页面行走负载
服务单位 任何 本地内存
可靠性 可能不可靠 可靠的

现在您应该清楚了,这些事件一般来说根本不等同。比较这两个事件的计数以推断出一些有意义的东西也不是一件容易的事。

在您提供的所有示例中,offcore_response.demand_data_rd.l3_miss.local_dram事件计数都大于mem_load_uops_retired.l3_miss事件计数。然而,不难举出后者比前者更大的真实例子。

在所有四个基准测试中,offcore_response.demand_data_rd.l3_miss.local_dram 的频率几乎是 mem_load_uops_retired.l3_miss 的两倍。这合理吗?

我认为“几乎两次”的描述实际上只适用于第二个例子,而不适用于其他例子。如果没有看到确切的代码和执行环境信息,我无法对您显示的数字发表评论。