特定C++随机数生成的Clang性能下降

Question

特定C++随机数生成的Clang性能下降

Bas*_*sti 22 c++ random clang mersenne-twister

使用C++ 11的随机模块,当使用std::mt19937(32和64位版本)与uniform_real_distribution(float或double,无关紧要)时,我遇到了奇怪的性能下降.与g ++编译相比,它的速度要慢一个数量级!

罪魁祸首不仅仅是mt发电机,因为它的速度很快uniform_int_distribution.并且这不是一个普遍的缺陷,uniform_real_distribution因为与其他发电机一样快default_random_engine.只是那个特定的组合很奇怪.

我对内在函数不是很熟悉,但Mersenne Twister算法或多或少都是严格定义的,所以实际上差异无法解释这个差异我猜？测量程序如下,但这是我在64位linux机器上的clang 3.4和gcc 4.8.1的结果:

gcc 4.8.1
runtime_int_default: 185.6
runtime_int_mt: 179.198
runtime_int_mt_64: 175.195
runtime_float_default: 45.375
runtime_float_mt: 58.144
runtime_float_mt_64: 94.188

clang 3.4
runtime_int_default: 215.096
runtime_int_mt: 201.064
runtime_int_mt_64: 199.836
runtime_float_default: 55.143
runtime_float_mt: 744.072  <--- this and
runtime_float_mt_64: 783.293 <- this is slow

Run Code Online (Sandbox Code Playgroud)

计划生成这个并尝试自己:

#include <iostream>
#include <vector>
#include <chrono>
#include <random>

template< typename T_rng, typename T_dist>
double time_rngs(T_rng& rng, T_dist& dist, int n){
    std::vector< typename T_dist::result_type > vec(n, 0);
    auto t1 = std::chrono::high_resolution_clock::now();
    for (int i = 0; i < n; ++i)
        vec[i] = dist(rng);
    auto t2 = std::chrono::high_resolution_clock::now();
    auto runtime = std::chrono::duration_cast<std::chrono::microseconds>(t2-t1).count()/1000.0;
    auto sum = vec[0]; //access to avoid compiler skipping
    return runtime;
}

int main(){
    const int n = 10000000;
    unsigned seed = std::chrono::system_clock::now().time_since_epoch().count();
    std::default_random_engine rng_default(seed);
    std::mt19937 rng_mt (seed);
    std::mt19937_64 rng_mt_64 (seed);
    std::uniform_int_distribution<int> dist_int(0,1000);
    std::uniform_real_distribution<float> dist_float(0.0, 1.0);

    // print max values
    std::cout << "rng_default_random.max(): " << rng_default.max() << std::endl;
    std::cout << "rng_mt.max(): " << rng_mt.max() << std::endl;
    std::cout << "rng_mt_64.max(): " << rng_mt_64.max() << std::endl << std::endl;

    std::cout << "runtime_int_default: " << time_rngs(rng_default, dist_int, n) << std::endl;
    std::cout << "runtime_int_mt: " << time_rngs(rng_mt_64, dist_int, n) << std::endl;
    std::cout << "runtime_int_mt_64: " << time_rngs(rng_mt_64, dist_int, n) << std::endl;
    std::cout << "runtime_float_default: " << time_rngs(rng_default, dist_float, n) << std::endl;
    std::cout << "runtime_float_mt: " << time_rngs(rng_mt, dist_float, n) << std::endl;
    std::cout << "runtime_float_mt_64: " << time_rngs(rng_mt_64, dist_float, n) << std::endl;
}

Run Code Online (Sandbox Code Playgroud)

分别编译via clang++ -O3 -std=c++11 random.cpp或g ++.有任何想法吗？

编辑:最后,Matthieu M.有一个好主意:罪魁祸首是内联,或者更确切地说是缺乏.增加clang内联限制消除了性能损失.这实际上解决了我遇到的一些性能怪异问题.谢谢,我学到了一些新东西.

Answer 1

Bau*_*gen 5

正如评论中已经说明的那样,问题是由于gcc比clang更具攻击性.如果我们非常激进地使用clang inline,效果会消失:

使用g++ -O3yield 编译代码

runtime_int_default: 3000.32
runtime_int_mt: 3112.11
runtime_int_mt_64: 3069.48
runtime_float_default: 859.14
runtime_float_mt: 1027.05
runtime_float_mt_64: 1777.48

Run Code Online (Sandbox Code Playgroud)

而clang++ -O3 -mllvm -inline-threshold=10000收益率

runtime_int_default: 3623.89
runtime_int_mt: 751.484
runtime_int_mt_64: 751.132
runtime_float_default: 1072.53
runtime_float_mt: 968.967
runtime_float_mt_64: 1781.34

Run Code Online (Sandbox Code Playgroud)

显然,clang现在在这些int_mt情况下突破gcc ,但所有其他运行时现在都处于相同的数量级.我在Fedora 20 64位上使用了gcc 4.8.3和clang 3.4.

归档时间：	11 年，8 月前
查看次数：	1711 次
最近记录：	10 年，3 月前