ijk*_*klr 3 c++ floating-point sse numeric fast-math
这是我对dot产品的天真实现:
float simple_dot(int N, float *A, float *B) {
float dot = 0;
for(int i = 0; i < N; ++i) {
dot += A[i] * B[i];
}
return dot;
}
Run Code Online (Sandbox Code Playgroud)
这是使用C++库:
float library_dot(int N, float *A, float *B) {
return std::inner_product(A, A+N, B, 0);
}
Run Code Online (Sandbox Code Playgroud)
我运行了一些基准测试(代码在这里https://github.com/ijklr/sse),库版本慢很多.我的编译器标志是-Ofast -march=native
你的两个功能不做同样的事情.该算法使用一个累加器,其类型是从初始值推导出来的,在你的情况下(0)是int.将浮点数累积到int中不仅需要比累积到浮点数更长的时间,而且还会产生不同的结果.
原始循环代码的等价物是使用初始值0.0f,或等效float{}.
(注意std::accumulate在这方面非常相似.)
| 归档时间: |
|
| 查看次数: |
637 次 |
| 最近记录: |