为什么我看到使用 REP MOVSB 的 RFO（读取所有权）请求比使用 vmovdqa 的请求多

Noa*_*oah 5 x86-64 intel cpu-architecture memcpy micro-optimization

结帐 Edit3

我得到了错误的结果，因为我在测量时没有包括这里讨论的预取触发事件。话虽如此，AFAIKrep movsb与临时存储相比，我只看到 RFO 请求减少，memcpy因为在加载时预取更好，而没有对存储进行预取。不是因为 RFO 请求针对完整缓存行存储进行了优化。这种有意义的，因为我们没有看到RFO请求优化掉了vmovdqa一个zmm寄存器，我们预计如果真的在那里为整个缓存线存储情况。话虽如此，存储上缺乏预取和非临时写入的缺乏使得很难看出如何rep movsb具有合理的性能。

编辑：RFO 可能来自rep movsb不同的请求vmovdqa，因为rep movsb它可能不请求数据，只需在独占状态下取行即可。对于有收银机的商店，情况也可能如此zmm。但是，我没有看到任何性能指标来测试这一点。有谁知道吗？

问题

为什么我没有看到RFO请求减少时，我使用rep movsb的memcpy作为相比，memcpy与实现的vmovdqa？
为什么我看到越来越多的RFO请求时，我用rep movsb的memcpy作为相比，memcpy与实现vmovdqa

两个单独的问题，因为我相信我应该看到 RFO 请求减少了rep movsb，但如果不是这种情况，我是否也应该看到增加？

背景

CPU - Icelake: Intel(R) Core(TM) i7-1065G7 CPU @ 1.30GHz

我试图在使用不同的方法时测试 RFO 请求的数量，memcpy包括：

时间商店 -> vmovdqa
非临时存储 -> vmovntdq
增强型 REP MOVSB ->rep movsb

并且无法看到使用rep movsb. 事实上，我看到的 RFO 请求rep movsb比 Temporal Stores 多。鉴于共识理解似乎是 ivybridge 和 newrep movsb能够避免 RFO 请求，从而节省内存带宽，这是违反直觉的：

在用于 memcpy 的增强型 REP MOVSB 中：

当发出 rep movs 指令时，CPU 知道要传输已知大小的整个块。这可以帮助它以离散指令无法实现的方式优化操作，例如：

当知道整个缓存行将被覆盖时避免 RFO 请求。

在这个 memcpy 实现中缺少什么/次优？：

请注意，在 Ivybridge 和 Haswell 上，如果缓冲区足够大以适合 MLC，您可以使用 rep movsb 击败 movntdqa；movntdqa 导致对 LLC 的 RFO，rep movsb 没有

我编写了一个简单的测试程序来验证这一点，但无法这样做。

测试程序

#include <assert.h>
#include <errno.h>
#include <immintrin.h>
#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/mman.h>

#define BENCH_ATTR __attribute__((noinline, noclone, aligned(4096)))


#define TEMPORAL          0
#define NON_TEMPORAL      1
#define REP_MOVSB         2
#define NONE_OF_THE_ABOVE 3

#define TODO 1

#if TODO == NON_TEMPORAL
#define store(x, y) _mm256_stream_si256((__m256i *)(x), y)
#else
#define store(x, y) _mm256_store_si256((__m256i *)(x), y)
#endif

#define load(x)     _mm256_load_si256((__m256i *)(x))

void *
mmapw(uint64_t sz) {
    void * p = mmap(NULL, sz, PROT_READ | PROT_WRITE,
                    MAP_ANONYMOUS | MAP_PRIVATE, -1, 0);
    assert(p != NULL);
    return p;
}
void BENCH_ATTR
bench() {
    uint64_t len = 64UL * (1UL << 22);

    uint64_t len_alloc = len;
    char *   dst_alloc = (char *)mmapw(len);
    char *   src_alloc = (char *)mmapw(len);

    for (uint64_t i = 0; i < len; i += 4096) {
        // page in before testing. perf metrics appear to still come through
        dst_alloc[i] = 0;
        src_alloc[i] = 0;
    }

    uint64_t dst     = (uint64_t)dst_alloc;
    uint64_t src     = (uint64_t)src_alloc;
    uint64_t dst_end = dst + len;



    asm volatile("lfence" : : : "memory");
#if TODO == REP_MOVSB
    // test rep movsb
    asm volatile("rep movsb" : "+D"(dst), "+S"(src), "+c"(len) : : "memory");
#elif TODO == TEMPORAL || TODO == NON_TEMPORAL
    // test vmovtndq or vmovdqa
    for (; dst < dst_end;) {
        __m256i lo = load(src);
        __m256i hi = load(src + 32);
        store(dst, lo);
        store(dst + 32, hi);
        dst += 64;
        src += 64;
    }
#endif

    asm volatile("lfence\n\tmfence" : : : "memory");

    assert(!munmap(dst_alloc, len_alloc));
    assert(!munmap(src_alloc, len_alloc));
}

int
main(int argc, char ** argv) {
    bench();
}

待办事项 =	性能事件	带预取	无预取	区别
---------------	---------------	---------------	---------------	---------------
颞	l2_rqsts_references	16812993	4358692	12454301
颞	l2_rqsts_all_rfo	14443392	1981560	12461832
颞	l2_rqsts_rfo_hit	1297932	1038243	259689
颞	l2_rqsts_rfo_miss	13145460	943317	12202143
---------------	---------------	---------------	---------------	---------------
非临时	l2_rqsts_references	8820287	1946591	6873696
非临时	l2_rqsts_all_rfo	6852605	346	6852259
非临时	l2_rqsts_rfo_hit	66845	317	66528
非临时	l2_rqsts_rfo_miss	6785760	29	6785731
---------------	---------------	---------------	---------------	---------------
REP_MOVSB	l2_rqsts_references	11856549	7400277	4456272
REP_MOVSB	l2_rqsts_all_rfo	8633330	4194510	4438820
REP_MOVSB	l2_rqsts_rfo_hit	1394372	546	1393826
REP_MOVSB	l2_rqsts_rfo_miss	7238958	4193964	3044994
---------------	---------------	---------------	---------------	---------------
LOAD_ONLY_TEMPORAL	l2_rqsts_references	6058269	619924	5438345
LOAD_ONLY_TEMPORAL	l2_rqsts_all_rfo	5103905	337	5103568
LOAD_ONLY_TEMPORAL	l2_rqsts_rfo_hit	438518	311	438207
LOAD_ONLY_TEMPORAL	l2_rqsts_rfo_miss	4665387	26	4665361
---------------	---------------	---------------	---------------	---------------
STORE_ONLY_TEMPORAL	l2_rqsts_references	8069068	837616	7231452
STORE_ONLY_TEMPORAL	l2_rqsts_all_rfo	8033854	802969	7230885
STORE_ONLY_TEMPORAL	l2_rqsts_rfo_hit	585938	576955	8983
STORE_ONLY_TEMPORAL	l2_rqsts_rfo_miss	7447916	226014	7221902
---------------	---------------	---------------	---------------	---------------
STORE_ONLY_REP_STOSB	l2_rqsts_references	4296169	4228643	67526
STORE_ONLY_REP_STOSB	l2_rqsts_all_rfo	4261756	4194548	67208
STORE_ONLY_REP_STOSB	l2_rqsts_rfo_hit	17337	309	17028
STORE_ONLY_REP_STOSB	l2_rqsts_rfo_miss	4244419	4194239	50180
---------------	---------------	---------------	---------------	---------------
STORE_ONLY_NON_TEMPORAL	l2_rqsts_references	99713	36112	63601
STORE_ONLY_NON_TEMPORAL	l2_rqsts_all_rfo	64148	427	63721
STORE_ONLY_NON_TEMPORAL	l2_rqsts_rfo_hit	17091	398	16693
STORE_ONLY_NON_TEMPORAL	l2_rqsts_rfo_miss	47057	29	47028
---------------	---------------	---------------	---------------	---------------
以上都不是	l2_rqsts_references	74074	27656	46418
以上都不是	l2_rqsts_all_rfo	46833	375	46458
以上都不是	l2_rqsts_rfo_hit	16366	344	16022
以上都不是	l2_rqsts_rfo_miss	30467	31	30436

归档时间：	4 年，11 月前
查看次数：	225 次
最近记录：	4 年，11 月前

为什么我看到使用 REP MOVSB 的 RFO（读取所有权）请求比使用 vmovdqa 的请求多

结帐 Edit3

问题

背景

测试程序

测试数据

检测结果

理论

包含和不包含预取触发事件的数据

商店

负载

结果