从大型分配数组读取而不是仅仅存储时，页面错误数量是原来的两倍？

Question

从大型分配数组读取而不是仅仅存储时，页面错误数量是原来的两倍？

我正在使用下面的代码对监视页面错误进行简单的测试，我不知道下面的一行简单代码如何使我的页面错误计数增加一倍。如果我使用

 ptr[i+4096] = 'A'

Run Code Online (Sandbox Code Playgroud)

我使用 perf 工具得到了25,722 个页面错误，这是我所期望的，但是如果我使用

tmp = ptr[i+4096]

Run Code Online (Sandbox Code Playgroud)

相反，页面错误增加了一倍，达到51,322 我不知道如何解释。下面是完整的代码。谢谢！

void do_something() {
    int i;
    char* ptr;
    char tmp;
    ptr = malloc(100*1024*1024);
    int j = 0;
    int k = 0;

    for (i = 0; i < 100*1024*1024; i+=4096) {

       //ptr[i+4096] = 'A' ;
       tmp = ptr[i+4096];

       for (j = 0 ; j < 4096; j++)
           ptr[i+j] = (char) (i & 0xff); // pagefault
    }
    free(ptr);
}

int main(int argc, char* argv[]) {
    do_something();
    return 0;
}

Run Code Online (Sandbox Code Playgroud)

机器信息：架构：x86_64 CPU 操作模式：32 位、64 位字节顺序：Little Endian CPU：40 在线 CPU 列表：每核 0-39 个线程：每个插槽 2 个核心：10 个插槽：2 个 NUMA 节点：2 供应商 ID：GenuineIntel CPU 系列：6 型号：63 型号名称：Intel(R) Xeon(R) CPU E5-2687W v3 @ 3.10GHz 步进：2 CPU MHz：3096.188 BogoMIPS：6197.81 虚拟化：VT-x L1d 缓存：32K L1i 缓存：32K L2 缓存：256K L3 缓存：25600K NUMA 节点 0 CPU：0-9,20-29 NUMA 节点 1 CPU：10-19,30-39

3.10.0-514.32.3.el7.x86_64 #1

Answer 1

Bee*_*ope 5

malloc()通常会通过向操作系统请求新页面来满足内存请求，例如，通过mmap. 此类页面通常是惰性分配的：直到第一次访问才分配实际页面。

然后发生的情况取决于第一次访问的类型：当您首先进行读取时，Linux 将映射一个由零组成的共享只读COW页来满足它，然后如果您稍后写入，则需要第二次故障来分配私有可写页面。

当您先进行写入时，会跳过第一步。这是常见情况，因为代码通常不会从新分配的具有未定义内容的内存中读取（至少当您从获取它时malloc）。

请注意，上面是对 Linux 中新分配的页面如何工作的描述 - 当您使用时，malloc还有另一层：malloc通常会尝试满足对进程先前释放的块的请求，而不是不断请求新内存。在重新使用内存的情况下，它通常已经被分页，并且上述情况将不适用。当然，对于 1024 MiB 的初始大分配，没有内存可重复使用，因此您可以确保分配器从操作系统获取它。

归档时间：	7 年，4 月前
查看次数：	256 次
最近记录：	7 年，4 月前