为什么在 C++ 中平均打印数组元素比打印单个对象慢?

Rob*_*rtS 1 c++ arrays performance benchmarking microbenchmark

我做了一个测试,通过将它们的值打印到 CLI 中来查看访问数组元素和单个对象之间的差异:

#include <iostream>
#include <chrono>
#include <iomanip>

int main()
{
    int a[10] = {1,2,3,4,5,6,7,8,9,10};

    int v1 = 1;
    int v2 = 2;
    int v3 = 3;
    int v4 = 4;
    int v5 = 5;
    int v6 = 6;
    int v7 = 7;
    int v8 = 8;
    int v9 = 9;
    int v10 = 10;

    std::cout << "Array output:" << std::endl << std::endl;

    auto t_start1 = std::chrono::high_resolution_clock::now();

    std::cout << "1. value: " << a[0] << std::endl;
    std::cout << "2. value: " << a[1] << std::endl;
    std::cout << "3. value: " << a[2] << std::endl;
    std::cout << "4. value: " << a[3] << std::endl;
    std::cout << "5. value: " << a[4] << std::endl;
    std::cout << "6. value: " << a[5] << std::endl;
    std::cout << "7. value: " << a[6] << std::endl;
    std::cout << "8. value: " << a[7] << std::endl;
    std::cout << "9. value: " << a[8] << std::endl;
    std::cout << "10. value: " << a[9] << std::endl;

    auto t_end1 = std::chrono::high_resolution_clock::now();

    std::cout << std::endl;

    std::cout << "Variable output:" << std::endl << std::endl;

    auto t_start2 = std::chrono::high_resolution_clock::now();

    std::cout << "1. value: " << v1 << std::endl;
    std::cout << "2. value: " << v2 << std::endl;
    std::cout << "3. value: " << v3 << std::endl;
    std::cout << "4. value: " << v4 << std::endl;
    std::cout << "5. value: " << v5 << std::endl;
    std::cout << "6. value: " << v6 << std::endl;
    std::cout << "7. value: " << v7 << std::endl;
    std::cout << "8. value: " << v8 << std::endl;
    std::cout << "9. value: " << v9 << std::endl;
    std::cout << "10. value: " << v10 << std::endl;


    auto t_end2 = std::chrono::high_resolution_clock::now();

    std::cout<< std::endl << "Time passed with array: "
              << std::chrono::duration<double, std::milli>(t_end1-t_start1).count()
              << " ms\n" << std::endl;
    std::cout<< std::endl << "Time passed with variables: "
              << std::chrono::duration<double, std::milli>(t_end2-t_start2).count()
              << " ms\n" << std::endl;

    return 0;
}
Run Code Online (Sandbox Code Playgroud)

在第一个实现中(Windows 10 下的 MingW/g++,cmd.exe),数组元素内值的打印平均比使用单个标量对象慢3毫秒

Windows 表,g++/MingW:

                Array Elements:            Single Objects:   

1. Run          13.9609 ms                 9.529 ms
2. Run          11.9031 ms                 8.0936 ms
3. Run          13.3706 ms                 9.5264 ms
4. Run          12.5302 ms                 8.4723 ms
5. Run          14.4679 ms                 9.9688 ms
6. Run          12.3989 ms                 8.4326 ms
7. Run          12.8719 ms                 10.1851 ms
8. Run          10.9138 ms                 7.4481 ms
9. Run          12.8971 ms                 9.4094 ms
10. Run         11.9045 ms                 7.9391 ms
11. Run          9.9192 ms                 8.4047 ms
12. Run         13.4106 ms                 10.0296 ms
Run Code Online (Sandbox Code Playgroud)

在第二个实现中(Linux Ubuntu 下的 g++),数组元素内值的打印平均比使用单个标量对象慢3微秒

适用于 Linux Ubuntu、g++ 的表:

                Array Elements:            Single Objects:   

1. Run          0.013 ms                   0.008 ms
2. Run          0.012 ms                   0.007 ms
3. Run          0.013 ms                   0.008 ms
4. Run          0.014 ms                   0.009 ms
5. Run          0.012 ms                   0.008 ms
6. Run          0.013 ms                   0.008 ms
7. Run          0.013 ms                   0.009 ms
8. Run          0.014 ms                   0.009 ms
9. Run          0.012 ms                   0.008 ms
10. Run         0.013 ms                   0.009 ms
11. Run         0.012 ms                   0.009 ms
12. Run         0.012 ms                   0.008 ms 
Run Code Online (Sandbox Code Playgroud)

我的问题:

  • 为什么在数组元素中打印值平均比在 *C++ 中打印单个对象中的值慢?

*信息:我不知道数组元素的打印是否通常平均较慢,与特定语言无关。

Max*_*kin 6

如果查看生成的程序集,您会注意到编译器用常量替换了数组元素和标量的负载,因为它们的值在编译时是已知的。


您测量格式化和输出数组元素所需的时间,以及刷新每个元素上的输出流(使用std::endl),这涉及系统调用。

从数组加载元素比这要短得多。从 L1 缓存加载 CPU 寄存器需要 4 个 CPU 周期(在 5GHz CPU 上不到 1 纳秒),从内存(最后一级缓存未命中)在 i9-i9900KS 上为 ~215 个 CPU 周期,在 Ryzen 上为 ~280 个 CPU 周期。

从数组或从(标量)变量加载元素之间应该没有可测量的差异。从数组加载元素可能会在生成的程序集中涉及一些索引算术,但这可能很难衡量。


当我围绕你的时间循环让 CPU 将其频率增加到最大值时,页面错误页面进入并预热 CPU 缓存;并替换std::endl'\n'我得到以下时间:

Time passed with array:     0.029154 ms
Time passed with variables: 0.029286 ms

Time passed with array:     0.027148 ms
Time passed with variables: 0.027587 ms
Run Code Online (Sandbox Code Playgroud)

这是为了表明访问数组元素和标量变量之间没有可测量的时间差异(但它仍然是测量std::cout时间)。

  • @ 可以使CPU 进入更高的频率、页面错误、缓存预热。为了获得准确的测量结果,CPU 必须锁定在恒定频率,基准测试应该执行几个循环来预热缓存和页面错误页面。仅在测量时间之后。在答案中添加了时间。 (2认同)
  • @RobertS-ReinstateMonica:当您获得令人惊讶的基准测试结果时,请尝试以其他顺序进行测试。因此,另一个必须在定时区域内支付启动成本,和/或在 CPU 尚未达到最大睿频时运行。或者制作单独的程序(一个用于数组,一个用于标量)。这样你就可以看到“数组”的额外成本实际上是第一次调用`std::cout.operator&lt;&lt;(int)`的额外成本,或者只是CPU频率还没有预热。当然,如果您知道足够的知识来做到这一点,那么您就会知道足够的知识来在计时区域“之前”进行一些热身运行,等等。 (2认同)