小编use*_*128的帖子

Fortran vs C++,Fortran如今仍然在数值分析方面有任何优势吗？

随着C++编译器的快速发展,尤其是英特尔编译器,以及在C/C++代码中直接应用SIMD函数的能力,Fortran在数值计算领域仍然具有任何真正的优势吗？

我来自应用数学背景,我的工作涉及大量的数值分析,计算,优化等,具有严格定义的性能要求.

我对Fortran几乎一无所知,我在C/CUDA/matlab方面有一些经验(如果你认为后者是一种计算机语言),我的日常任务包括分析非常大的数据(例如10GB大的矩阵),并且看起来该程序至少花费2/3的时间来访问内存(这就是为什么我将其部分工作发送到GPU),你是否认为对我来说至少尝试Fortran例程可能是值得的我的代码中一些性能至关重要的部分,以提高我的程序的性能？

因为那里需要完成复杂性和事情,所以如果只有那里有显着的性能优势,我只会这样做,感谢提前.

c c++ fortran cuda

use*_*128

2015 09-09

46
推荐指数

4
解决办法

5万
查看次数

OpenMP如何处理嵌套循环？

以下代码是仅仅并行化第一个(外部)循环,还是并行化整个嵌套循环？

    #pragma omp parallel for
    for (int i=0;i<N;i++)
    { 
      for (int j=0;j<M;j++)
      {
       //do task(i,j)//
      }
    }

Run Code Online (Sandbox Code Playgroud)

我只是想确定上面的代码是否会并行化整个嵌套的for循环(因此一个线程直接相关的任务(i,j)),或者它只是并行化外部for循环(因此它确保了每个并行)带有循环索引i的线程,它的内部循环将在一个线程中顺序完成,这非常重要).

c++ parallel-processing loops openmp

use*_*128

2017 10-30

31
推荐指数

2
解决办法

3万
查看次数

用于逐位操作的高性能库？

处理非常大的bool数据集,尝试使用逐位操作来处理它,寻找一些处理bit-set的库,它可以:

动态集,可以通过指针或引用传递.
按位读写.
计数设置位和快速.

显然std::bitset,任何建议的功能都太有限了吗？

c c++ performance bit-manipulation

use*_*128

2013 01-21

11
推荐指数

1
解决办法

1341
查看次数

在CUDA中获取浮点特殊值的方法？

CUDA中是否有任何设备功能可以获得IEEE 754特殊值,如inf,NaN？我的意思是稳定的方式,而不是一些可以由编译器优化的数学运算.

我只设法找到一个名为nan()的设备函数,它必须采用一些未知的字符串参数.

floating-point cuda nvidia nan

use*_*128

2013 11-12

10
推荐指数

1
解决办法

4618
查看次数

有人知道Nvidia的GPU是大还是小端？

我需要在GPU上进行大量的逐位操作,但无法找到有关Nvidia硬件是大端还是小端的任何信息.

cuda nvidia

use*_*128

2018 08-10

8
推荐指数

2
解决办法

2963
查看次数

Matlab fmincons和C++的NLP求解器如ipopt之间的性能差距是多少？

我即将为实时应用编写一个algorthim,它涉及一些高维NLP(非线性编程).

在实现之前,我需要对算法进行计时,以确定它是否适用于实时应用程序,因此我使用Matlab的内置fmincons作为基线.

根据经验表明,matlab算法的速度往往从慢到低于C++对应物,所以我想估计一下这种特殊情况可以带来什么样的性能提升？

由于我的工作主要与实时应用程序有关,因此我很少使用NLP(非线性编程),所以我问我的同事们,他们建议我尝试ipopt作为开始,我google了它的网站,没有针对Matlab的基准测试关于算法细节也没有太多话题(至少在Matlab中,检查它们的算法的细节并不难),所以我基本上对它的准确性/鲁棒性/最优性等几乎一无所知.

所以关于NLP的C++实现的任何帮助都将非常有用,非常感谢提前.

c++ optimization matlab nonlinear-optimization ipopt

use*_*128

2013 04-12

6
推荐指数

1
解决办法

1540
查看次数