Mat*_*ews 2 x86 f# sse avx .net-core
我有一个用 F# for .NET 编写的使用 SSE2 的函数。我使用 AVX2 写了同样的东西,但根本问题是相同的。a 的预期目的是什么MoveMask?我知道它对我的目的有效,我想知道为什么。
我正在迭代两个 64 位浮点数组a和b,测试它们的所有值是否匹配。我正在使用该CompareEqual方法(我相信该方法正在包装对 的调用__m128d _mm_cmpeq_pd)一次比较多个值。然后我将该结果与64Vector128位0.0浮点数进行比较。我的推理是,在值不匹配的情况下,结果CompareEqual将给出一个值。0.0到目前为止,这是有道理的。
然后我Sse2.MoveMask对与零向量的比较结果使用该方法。我之前曾研究过使用SSEand for 匹配,并且我看到了人们用于测试非零值AVX的示例。MoveMask我相信这种方法正在使用int _mm_movemask_epi8英特尔内在函数。我已包含 F# 代码和 JIT 的程序集。
这真的是一个目的吗MoveMask,还是只是一个令人高兴的巧合,它可以达到这些目的。我知道我的代码有效,我想知道它为什么有效。
#nowarn "9" "51" "20" // Don't want warnings about pointers
open System
open FSharp.NativeInterop
open System.Runtime.Intrinsics.X86
open System.Runtime.Intrinsics
open System.Collections.Generic
let sseFloatEquals (a: array<float>) (b: array<float>) =
if a.Length = b.Length then
let mutable result = true
let mutable idx = 0
if a.Length > 3 then
let lastBlockIdx = a.Length - (a.Length % Vector128<float>.Count)
let aSpan = a.AsSpan ()
let bSpan = b.AsSpan ()
let aPointer = && (aSpan.GetPinnableReference ())
let bPointer = && (bSpan.GetPinnableReference ())
let zeroVector = Vector128.Create 0.0
while idx < lastBlockIdx && result do
let aVector = Sse2.LoadVector128 (NativePtr.add aPointer idx)
let bVector = Sse2.LoadVector128 (NativePtr.add bPointer idx)
let comparison = Sse2.CompareEqual (aVector, bVector)
let zeroTest = Sse2.CompareEqual (comparison, zeroVector)
// The line I want to understand
let matches = Sse2.MoveMask (zeroTest.AsByte ())
if matches <> 0 then
result <- false
idx <- idx + Vector128.Count
while idx < a.Length && idx < b.Length && result do
if a.[idx] <> b.[idx] then
result <- false
idx <- idx + 1
result
else
false
Run Code Online (Sandbox Code Playgroud)
; Core CLR 5.0.921.35908 on amd64
_.sseFloatEquals$cont@11(System.Double[], System.Double[], Microsoft.FSharp.Core.Unit)
L0000: push rdi
L0001: push rsi
L0002: push rbp
L0003: push rbx
L0004: sub rsp, 0x28
L0008: vzeroupper
L000b: mov eax, 1
L0010: xor r8d, r8d
L0013: mov r9d, [rcx+8]
L0017: cmp r9d, 3
L001b: jle short L008e
L001d: mov r10d, r9d
L0020: and r10d, 1
L0024: mov r11d, r9d
L0027: sub r11d, r10d
L002a: lea r10, [rcx+0x10]
L002e: mov esi, r9d
L0031: test rdx, rdx
L0034: jne short L003c
L0036: xor edi, edi
L0038: xor ebx, ebx
L003a: jmp short L0043
L003c: lea rdi, [rdx+0x10]
L0040: mov ebx, [rdx+8]
L0043: xor ebp, ebp
L0045: test esi, esi
L0047: je short L004c
L0049: mov rbp, r10
L004c: xor r10d, r10d
L004f: test ebx, ebx
L0051: je short L0056
L0053: mov r10, rdi
L0056: vxorps xmm0, xmm0, xmm0
L005a: cmp r8d, r11d
L005d: jge short L008e
L005f: mov esi, eax
L0061: test esi, esi
L0063: je short L008e
L0065: movsxd rsi, r8d
L0068: vmovupd xmm1, [rbp+rsi*8]
L006e: vmovupd xmm2, [r10+rsi*8]
L0074: vcmpeqpd xmm1, xmm1, xmm2
L0079: vcmpeqpd xmm1, xmm1, xmm0
L007e: vpmovmskb esi, xmm1
L0082: test esi, esi
L0084: je short L0088
L0086: xor eax, eax
L0088: add r8d, 4
L008c: jmp short L005a
L008e: cmp r9d, r8d
L0091: jle short L00c8
L0093: cmp [rdx+8], r8d
L0097: jle short L00c8
L0099: mov r10d, eax
L009c: test r10d, r10d
L009f: je short L00c8
L00a1: cmp r8d, r9d
L00a4: jae short L00d1
L00a6: movsxd r10, r8d
L00a9: vmovsd xmm0, [rcx+r10*8+0x10]
L00b0: cmp r8d, [rdx+8]
L00b4: jae short L00d1
L00b6: vucomisd xmm0, [rdx+r10*8+0x10]
L00bd: jp short L00c1
L00bf: je short L00c3
L00c1: xor eax, eax
L00c3: inc r8d
L00c6: jmp short L008e
L00c8: add rsp, 0x28
L00cc: pop rbx
L00cd: pop rbp
L00ce: pop rsi
L00cf: pop rdi
L00d0: ret
L00d1: call 0x00007ffcef38a370
L00d6: int3
_.sseFloatEquals(System.Double[], System.Double[])
L0000: mov r8d, [rcx+8]
L0004: cmp r8d, [rdx+8]
L0008: jne short L0012
L000a: xor r8d, r8d
L000d: jmp 0x00007ffc99000480
L0012: xor eax, eax
L0014: ret
Run Code Online (Sandbox Code Playgroud)
MoveMask只是将每个元素的高位提取到整数位图中。您有 3 个元素大小选项:movmskpd(64 位)、movmskps(32 位)和pmovmskb(8 位)。
这对于 SIMD 比较非常有效,当谓词为假时,SIMD 比较会产生全零的输出,而当谓词为真时,元素中的所有位均为全 1。-QNaN如果解释为 IEEE-FP 浮点值,则全一是一种位模式,但通常您不会这样做。相反,请使用 movemask 或 AND(或 AND / ANDN / OR 或_mm_blend_pd)或类似的比较结果。
movemask(v) != 0、movemask(v) == 0x3、 或movemask(v) == 0是检查条件的方式,例如比较中至少有一个元素匹配、全部匹配或没有匹配,分别v是 where 的结果_mm_cmpeq_pd或其他内容。(或者只是直接提取符号而不进行比较)。
对于其他元素大小,0xf或者0xffff匹配所有 4 位或所有 16 位。或者对于 AVX 256 位向量,两倍的位数,最多用vpmovmskb eax, ymm0.
vcmpeqpd xmm1, xmm1, xmm2你所做的事情真的很奇怪,使用 0.0 / NaN 比较结果作为另一个与/比较的输入vcmpeqpd xmm1, xmm1, xmm0。对于第二个比较,这只对于 (即 +-0.0) 的元素为 true == 0.0,因为x == NaN对于每个 都是 false x。
如果第二个向量是常量零 ( let zeroTest = Sse2.CompareEqual (comparison, zeroVector),这是毫无意义的,您只是反转比较结果,您可以通过检查不同的整数条件或针对不同的常量来完成比较结果,而不是进行运行时比较。 (0.0 == 0.0是 true,产生 all -ones 输出0.0 == -NaN为 false,产生全零输出。)
要了解有关内在函数和 SIMD 的更多信息,请参阅Agner Fog 的优化指南;他的汇编指南有一章是关于 SIMD 的。此外,他的 C++ VectorClass 库有一些有用的包装器,出于学习目的,了解这些包装器函数如何实现一些基本功能可能会很有用。
要了解事物的实际作用,请参阅英特尔的内在函数指南。您可以通过 asm 指令或 C++ 内部名称进行搜索。
我认为 MS 有其 C# System.Runtime.Intrinsics.X86 的文档,并且我假设 F# 使用相同的内在函数,但我自己不使用任何一种语言。
相关回复:比较:
获取最后一个行分隔符- pcmpeqb -> pmovmskb ->bsr以查找比较结果向量中最后一个匹配元素的位置。比较掩码上的位扫描反转。通常,您希望向前扫描以查找第一个匹配项(或反转并查找第一个不匹配项,例如 for memcmp)。例如,将 16 字节字符串与 SSE 进行比较
,或者如果您通过与广播字符的循环不变向量匹配来计算出现次数,则对它们进行 popcount:How can I count of a byte in array using SIMD?- 使用比较结果作为整数 0 / -1,而不是 movemask。SIMD 在内循环中从向量累加器中减去,然后在外循环中对整数元素进行水平求和。
用于浮点相等比较的 SIMD 指令(NaN == NaN) - 了解 NaN 工作原理的有用练习。
| 归档时间: |
|
| 查看次数: |
1879 次 |
| 最近记录: |