cdk*_*cdk 20 performance haskell bit-manipulation simd
我有一个程序,它花费大部分时间来计算RGB值之间的欧几里德距离(无符号8位的3元组Word8
).我需要一个快速,无分支的无符号int绝对差函数
unsigned_difference :: Word8 -> Word8 -> Word8
unsigned_difference a b = max a b - min a b
Run Code Online (Sandbox Code Playgroud)
特别是,
unsigned_difference a b == unsigned_difference b a
我使用GHC 7.8中的新初学者提出了以下内容:
-- (a < b) * (b - a) + (a > b) * (a - b)
unsigned_difference (I# a) (I# b) =
I# ((a <# b) *# (b -# a) +# (a ># b) *# (a -# b))]
Run Code Online (Sandbox Code Playgroud)
其ghc -O2 -S
编译成
.Lc42U:
movq 7(%rbx),%rax
movq $ghczmprim_GHCziTypes_Izh_con_info,-8(%r12)
movq 8(%rbp),%rbx
movq %rbx,%rcx
subq %rax,%rcx
cmpq %rax,%rbx
setg %dl
movzbl %dl,%edx
imulq %rcx,%rdx
movq %rax,%rcx
subq %rbx,%rcx
cmpq %rax,%rbx
setl %al
movzbl %al,%eax
imulq %rcx,%rax
addq %rdx,%rax
movq %rax,(%r12)
leaq -7(%r12),%rbx
addq $16,%rbp
jmp *(%rbp)
Run Code Online (Sandbox Code Playgroud)
编译ghc -O2 -fllvm -optlo -O3 -S
生成以下asm:
.LBB6_1:
movq 7(%rbx), %rsi
movq $ghczmprim_GHCziTypes_Izh_con_info, 8(%rax)
movq 8(%rbp), %rcx
movq %rsi, %rdx
subq %rcx, %rdx
xorl %edi, %edi
subq %rsi, %rcx
cmovleq %rdi, %rcx
cmovgeq %rdi, %rdx
addq %rcx, %rdx
movq %rdx, 16(%rax)
movq 16(%rbp), %rax
addq $16, %rbp
leaq -7(%r12), %rbx
jmpq *%rax # TAILCALL
Run Code Online (Sandbox Code Playgroud)
因此,LLVM设法用(更有效的?)条件移动指令替换比较.不幸的是,编译-fllvm
对我的程序的运行时影响不大.
但是,此功能存在两个问题.
Word8
,但比较的初学者需要使用Int
.这导致不必要的分配,因为我被迫存储64位Int
而不是a Word8
.我已经分析并确认使用fromIntegral :: Word8 -> Int
该程序的总分配的42.4%.
Word8
.我之前曾用标记这个问题C/C++
来吸引那些更倾向于操纵位的人的注意力.我的问题使用Haskell,但我会接受在任何语言中实现正确方法的答案.
结论:
我决定用
w8_sad :: Word8 -> Word8 -> Int16
w8_sad a b = xor (diff + mask) mask
where diff = fromIntegral a - fromIntegral b
mask = unsafeShiftR diff 15
Run Code Online (Sandbox Code Playgroud)
因为它比我原来的unsigned_difference
功能更快,并且易于实现.Haskell中的SIMD内在函数还没有达到成熟.因此,虽然SIMD版本更快,但我决定采用标量版本.
好吧,我尝试了一下基准测试.我使用Criterion作为基准测试,因为它进行了适当的重要性测试.我也在这里使用QuickCheck来确保所有方法都返回相同的结果.
我编译了GHC 7.6.3(所以我不能包括你的primops函数,不幸)和-O3
:
ghc -O3 AbsDiff.hs -o AbsDiff && ./AbsDiff
Run Code Online (Sandbox Code Playgroud)
主要是我们可以看到天真的实现和一些fiddeling之间的区别:
absdiff1_w8 :: Word8 -> Word8 -> Word8
absdiff1_w8 a b = max a b - min a b
absdiff2_w8 :: Word8 -> Word8 -> Word8
absdiff2_w8 a b = unsafeCoerce $ xor (v + mask) mask
where v = (unsafeCoerce a::Int64) - (unsafeCoerce b::Int64)
mask = unsafeShiftR v 63
Run Code Online (Sandbox Code Playgroud)
输出:
benchmarking absdiff_Word8/1
mean: 249.8591 us, lb 248.1229 us, ub 252.4321 us, ci 0.950
....
benchmarking absdiff_Word8/2
mean: 202.5095 us, lb 200.8041 us, ub 206.7602 us, ci 0.950
...
Run Code Online (Sandbox Code Playgroud)
我使用"Bit Twiddling Hacks here"中的绝对整数值技巧.不幸的是我们需要强制类型转换器,我认为不可能在Word8
单独的域中很好地解决问题,但无论如何使用本机整数类型似乎是明智的(尽管绝对不需要创建堆对象).
它看起来并不像是一个很大的区别,但我的测试设置也并不完美:我将函数映射到一大堆随机值上以排除分支预测,使得分支版本看起来比它更有效.这会导致thunk在内存中累积,这可能会对时间产生很大影响.当我们减去维护列表的常量开销时,我们可以看到比20%的加速更多.
生成的程序集实际上非常好(这是函数的内联版本):
.Lc4BB:
leaq 7(%rbx),%rax
movq 8(%rbp),%rbx
subq (%rax),%rbx
movq %rbx,%rax
sarq $63,%rax
movq $base_GHCziInt_I64zh_con_info,-8(%r12)
addq %rax,%rbx
xorq %rax,%rbx
movq %rbx,0(%r12)
leaq -7(%r12),%rbx
movq $s4z0_info,8(%rbp)
Run Code Online (Sandbox Code Playgroud)
正如预期的那样,1减法,1加法,1右移,1 xor和no分支.使用LLVM后端并不会显着改善运行时.
希望如果你想尝试更多的东西,这是有用的.
{-# LANGUAGE BangPatterns #-}
{-# LANGUAGE ScopedTypeVariables #-}
module Main where
import Data.Word
import Data.Int
import Data.Bits
import Control.Arrow ((***))
import Control.DeepSeq (force)
import Control.Exception (evaluate)
import Control.Monad
import System.Random
import Unsafe.Coerce
import Test.QuickCheck hiding ((.&.))
import Criterion.Main
absdiff1_w8 :: Word8 -> Word8 -> Word8
absdiff1_w8 !a !b = max a b - min a b
absdiff1_int16 :: Int16 -> Int16 -> Int16
absdiff1_int16 a b = max a b - min a b
absdiff1_int :: Int -> Int -> Int
absdiff1_int a b = max a b - min a b
absdiff2_int16 :: Int16 -> Int16 -> Int16
absdiff2_int16 a b = xor (v + mask) mask
where v = a - b
mask = unsafeShiftR v 15
absdiff2_w8 :: Word8 -> Word8 -> Word8
absdiff2_w8 !a !b = unsafeCoerce $ xor (v + mask) mask
where !v = (unsafeCoerce a::Int64) - (unsafeCoerce b::Int64)
!mask = unsafeShiftR v 63
absdiff3_w8 :: Word8 -> Word8 -> Word8
absdiff3_w8 a b = if a > b then a - b else b - a
{-absdiff4_int :: Int -> Int -> Int-}
{-absdiff4_int (I# a) (I# b) =-}
{-I# ((a <# b) *# (b -# a) +# (a ># b) *# (a -# b))-}
e2e :: (Enum a, Enum b) => a -> b
e2e = toEnum . fromEnum
prop_same1 x y = absdiff1_w8 x y == absdiff2_w8 x y
prop_same2 (x::Word8) (y::Word8) = absdiff1_int16 x' y' == absdiff2_int16 x' y'
where x' = e2e x
y' = e2e y
check = quickCheck prop_same1
>> quickCheck prop_same2
instance (Random x, Random y) => Random (x, y) where
random gen1 =
let (x, gen2) = random gen1
(y, gen3) = random gen2
in ((x,y),gen3)
main =
do check
!pairs_w8 <- fmap force $ replicateM 10000 (randomIO :: IO (Word8,Word8))
let !pairs_int16 = force $ map (e2e *** e2e) pairs_w8
defaultMain
[ bgroup "absdiff_Word8" [ bench "1" $ nf (map (uncurry absdiff1_w8)) pairs_w8
, bench "2" $ nf (map (uncurry absdiff2_w8)) pairs_w8
, bench "3" $ nf (map (uncurry absdiff3_w8)) pairs_w8
]
, bgroup "absdiff_Int16" [ bench "1" $ nf (map (uncurry absdiff1_int16)) pairs_int16
, bench "2" $ nf (map (uncurry absdiff2_int16)) pairs_int16
]
{-, bgroup "absdiff_Int" [ bench "1" $ whnf (absdiff1_int 13) 14-}
{-, bench "2" $ whnf (absdiff3_int 13) 14-}
{-]-}
]
Run Code Online (Sandbox Code Playgroud)