我正在使用Eigen库研究两个大矩阵的简单乘法.对于相同大小的矩阵,此乘法似乎明显慢于Matlab和Python.
有没有什么可以使特征操作更快?
问题细节
X:随机1000 x 50000矩阵
Y:随机50000 x 300矩阵
计时实验(在我2011年末的Macbook Pro上)
使用Matlab:X*Y需要~1.3秒
使用Enthought Python:numpy.dot(X,Y)需要大约2.2秒
使用特征:X*Y需要~2.7秒
特征细节
你可以得到我的Eigen代码(作为MEX函数):https://gist.github.com/michaelchughes/4742878
该MEX函数从Matlab读入两个矩阵,并返回其产品.
在没有矩阵乘积运算的情况下运行这个MEX函数(即只是执行IO)会产生可忽略的开销,因此函数和Matlab之间的IO并不能解释性能上的巨大差异.这显然是实际的矩阵产品操作.
我用g ++编译,带有这些优化标志:" - O3 -DNDEBUG"
我正在使用最新的稳定Eigen头文件(3.1.2).
关于如何提高Eigen性能的任何建议?任何人都可以复制我看到的差距吗?
更新 编译器似乎真的很重要.最初的Eigen时序是使用Apple XCode的g ++版本完成的:llvm-g ++ - 4.2.
当我使用通过MacPorts下载的g ++ - 4.7(相同的CXXOPTIMFLAGS)时,我获得2.4秒而不是2.7秒.
关于如何更好地编译的任何其他建议将非常感激.
您还可以获得此实验的原始C++代码:https://gist.github.com/michaelchughes/4747789
./MatProdEigen 1000 50000 300
在g ++ - 4.7下报告2.4秒
gga*_*ael 12
首先,在进行性能比较时,请确保禁用了turbo-boost(TB).在我的系统上,使用macport的gcc 4.5而没有turbo-boost,我得到3.5s,相当于8.4 GFLOPS,而我的2.3核心i7的理论峰值是9.2GFLOPS,所以也不错.
MatLab基于英特尔MKL,并且看到了报告的性能,它显然使用了多线程版本.作为Eigen的小型库不太可能在自己的CPU上击败英特尔!
Numpy可以使用任何BLAS库,Atlas,MKL,OpenBLAS,eigen-blas等.我想在你的情况下它使用Atlas也很快.
最后,以下是如何获得更好的性能:通过使用-fopenmp进行编译,在Eigen中启用多线程.默认情况下,Eigen使用线程数作为OpenMP定义的默认线程数.遗憾的是,此数字对应于逻辑核心数,而不是物理核心数,因此请确保禁用超线程或将OMP_NUM_THREADS环境变量定义为物理核心数.在这里我得到1.25s(没有TB)和0.95s TB.