bil*_*llt 3 parallel-processing haskell loops vector simd
是否有可能让GHC为各代SSE代码生成SIMD代码?
例如.得到了这样的程序
import Data.Array.Vector
main = print . sumU $ (enumFromToFracU 1 10000000 :: UArr Double)
Run Code Online (Sandbox Code Playgroud)
我可以看到生成的代码(为64位x86编译)在标量模式下使用SSE指令(C和asm后端).所以加上而不是addpd.对于我工作的程序类型,使用向量指令对性能很重要.是否有一种简单的方法让像我这样的新手让GHC使用SSE SIMDize代码?
是的,有可能,通过C后端,但它是反复试验.我使用的标志:
gcc -O2 -funbox-strict-fields -fvia-C -optc-O3 -march=native -optc-msse4
Run Code Online (Sandbox Code Playgroud)
然后希望GCC通过uvector代码发现紧密循环GHC生成,并意识到存在SIMD潜力.