sal*_*lva 6 c gcc sse vectorization avx2
当使用C的GCC向量扩展时,如何检查向量上的所有值是否为零?
例如:
#include <stdint.h>
typedef uint32_t v8ui __attribute__ ((vector_size (32)));
v8ui*
foo(v8ui *mem) {
v8ui v;
for ( v = (v8ui){ 1, 1, 1, 1, 1, 1, 1, 1 };
v[0] || v[1] || v[2] || v[3] || v[4] || v[5] || v[6] || v[7];
mem++)
v &= *(mem);
return mem;
}
Run Code Online (Sandbox Code Playgroud)
SSE4.2具有PTEST允许运行像用作for条件的测试的指令,但是GCC生成的代码只是解包向量并逐个检查单个元素:
.L2:
vandps (%rax), %ymm1, %ymm1
vmovdqa %xmm1, %xmm0
addq $32, %rax
vmovd %xmm0, %edx
testl %edx, %edx
jne .L2
vpextrd $1, %xmm0, %edx
testl %edx, %edx
jne .L2
vpextrd $2, %xmm0, %edx
testl %edx, %edx
jne .L2
vpextrd $3, %xmm0, %edx
testl %edx, %edx
jne .L2
vextractf128 $0x1, %ymm1, %xmm0
vmovd %xmm0, %edx
testl %edx, %edx
jne .L2
vpextrd $1, %xmm0, %edx
testl %edx, %edx
jne .L2
vpextrd $2, %xmm0, %edx
testl %edx, %edx
jne .L2
vpextrd $3, %xmm0, %edx
testl %edx, %edx
jne .L2
vzeroupper
ret
Run Code Online (Sandbox Code Playgroud)
有没有办法让GCC在不恢复使用内在函数的情况下为其生成有效的测试?
更新:作为参考,代码使用内置的不可移植的GCC (V)PTEST:
typedef uint32_t v8ui __attribute__ ((vector_size (32)));
typedef long long int v4si __attribute__ ((vector_size (32)));
const v8ui ones = { 1, 1, 1, 1, 1, 1, 1, 1 };
v8ui*
foo(v8ui *mem) {
v8ui v;
for ( v = ones;
!__builtin_ia32_ptestz256((v4si)v,
(v4si)ones);
mem++)
v &= *(mem);
return mem;
}
Run Code Online (Sandbox Code Playgroud)
vptest 没有帮助吗?如果您关注性能,有时您会对本机类型可以提供的功能感到惊讶。这是一些使用普通 memcmp() 和 vptest 指令(通过相应的内在函数使用)的代码。我没有为这些功能计时。
#include <stdint.h>
#include <stdio.h>
#include <string.h>
#include <immintrin.h>
typedef uint32_t v8ui __attribute__ ((vector_size (32)));
v8ui*
foo1(v8ui *mem)
{
v8ui v = (v8ui){ 1, 1, 1, 1, 1, 1, 1, 1 };
if (memcmp(mem, &v, sizeof (v8ui)) == 0) {
printf("Ones\n");
} else {
printf("NOT Ones\n");
}
return mem;
}
v8ui*
foo2(v8ui *mem)
{
v8ui v = (v8ui){ 1, 1, 1, 1, 1, 1, 1, 1 };
__m256i a, b;
a = _mm256_loadu_si256((__m256i *)(&v));
b = _mm256_loadu_si256((__m256i *)(&mem));
if (!_mm256_testz_si256(a, b)) {
printf("NOT Ones\n");
} else {
printf("Ones\n");
}
return mem;
}
int
main()
{
v8ui v = (v8ui){ 1, 1, 1, 1, 1, 1, 1, 1 };
foo1(&v);
foo2(&v);
}
Run Code Online (Sandbox Code Playgroud)
编译标志:
哎哟!直到现在我才看到您想让 GCC 在不使用内在函数的情况下生成 vptest 指令。无论如何我都会留下代码。
| 归档时间: |
|
| 查看次数: |
395 次 |
| 最近记录: |