Lee*_*eor 16
CPU确实在硬件中管理自己的缓存,但x86为您提供了一些影响此管理的方法.
要在不缓存的情况下访问内存,您可以:
使用x86非时间指令,它们是为了告诉CPU你不会再次重用这些数据,因此将它保留在缓存中是没有意义的.x86中的这些指令通常称为movnt*(根据数据类型使用后缀,例如用于将正常整数加载到通用寄存器的movnti).还有用于流加载/存储的指令,这些指令也使用类似的技术,但更适合于高BW流(当您连续加载整行时).要使用它们,要么在内联汇编中对它们进行编码,要么使用编译器提供的内在函数,其中大多数都称为该族_mm_stream_*
将特定区域的内存类型更改为不可缓存.既然你声明你不想禁用所有缓存(理所当然,因为这也包括代码,堆栈,页面映射等等),你可以将基准测试数据集所在的特定区域定义为不可缓存,使用MTRR(存储器类型范围寄存器).有几种方法可以做到这一点,你需要阅读一些文档.
最后一个选项是正常获取行,这意味着它最初会被缓存,但是然后使用专用clflush指令强制它清除所有缓存级别(如果要刷新整个缓存,则使用完整的wbinvd).确保正确地围绕这些操作,以便您可以保证它们已完成(当然,不要将它们作为延迟的一部分进行测量).
话虽如此,如果你想做所有这些只是为了时间内存读取,你可能会得到不好的结果,因为大多数CPU"低效率"处理非时间或不可缓存的访问.如果你刚刚强迫读取来自内存,最好通过顺序访问一个足够大的数据集来操作高速缓存LRU来实现这一点,这些数据集不适合任何高速缓存.这将使大多数LRU方案(不是全部!)首先丢弃最旧的行,所以下次你回绕时,它们必须来自内存.
请注意,要使其工作,您需要确保您的硬件预取器没有帮助(并且意外地覆盖了您要测量的延迟) - 要么禁用它,要么使访问步幅足够远以使其无效.
Leeor preety列出了最适合您任务的" 专业 "解决方案.我将尝试添加另一个可以实现相同结果的提议,并且可以使用简单的代码在纯C中编写.我们的想法是创建一个类似于HPCC Challenge基准测试中的"全局随机访问"的内核.
内核的想法是随机跳过一大堆 8B值,这些值通常是物理内存的1/2(因此,如果你有16 GB的RAM,你需要一个8GB的阵列,通向8B的1G元素).对于每次跳转,您可以读取,写入或RMW目标位置.
这很可能测量RAM延迟,因为随机跳过RAM 会使缓存效率非常低.您将获得极低的缓存命中率,如果您对阵列进行了足够的操作,您将能够测量内存的实际性能.由于没有可检测的模式,该方法也使得预取非常无效.
你需要考虑以下事项: