相关疑难解决方法(0)

访问非活动的union成员和未定义的行为？

我的印象是访问union除最后一个成员之外的成员是UB,但我似乎无法找到一个可靠的参考(除了声称它是UB但没有标准支持的答案).

那么,这是不确定的行为？

c++ undefined-behavior unions language-lawyer

Luc*_*ore

2016 09-21

114
推荐指数

4
解决办法

2万
查看次数

在x86上做水平浮点矢量和的最快方法

你有一个三(或四)个浮点数的向量.总结它们的最快方法是什么？

SSE(movaps,shuffle,add,movd)总是比x87快吗？SSE4.2中的水平加法说明值得吗？移动到FPU的成本是多少,然后是faddp,faddp？什么是最快的特定指令序列？

"尝试安排事情,这样你可以一次总结四个向量"将不被接受作为答案.:-)

floating-point optimization x86 assembly sse

Fee*_*ure

lucky-day

41
推荐指数

4
解决办法

2万
查看次数

是否有针对intel avx2中的movemask指令的反向指令？

movemask指令采用__m256i并返回int32,其中每个位(取决于输入向量元素类型的前4位,8位或所有32位)是相应向量元素的最高有效位.

我想做反过来:取一个32(其中只有4,8或32个最低有效位有意义),并获得__m256i,其中每个int8,int32或int64大小的块的最高有效位设置为原始位.

基本上,我想从压缩的位掩码转到可被其他AVX2指令(例如maskstore,maskload,mask_gather)用作掩码的位掩码.

我无法快速找到这样做的指令,所以我在这里问.如果没有一条具有该功能的指令,您是否可以想到一个聪明的黑客,只需很少的指令即可实现这一点？

我目前的方法是使用256元素查找表.我想在一个没有其他事情发生的循环中使用这个操作来加速它.注意,我对长多指令序列或实现此操作的小循环不太感兴趣.

x86 icc intrinsics avx avx2

orm*_*orm

2016 04-08

8
推荐指数

1
解决办法

1696
查看次数

标签统计

x86 ×2

assembly ×1

avx ×1

avx2 ×1

c++ ×1

floating-point ×1

icc ×1

intrinsics ×1

language-lawyer ×1

optimization ×1

sse ×1

undefined-behavior ×1

unions ×1

访问非活动的union成员和未定义的行为？

在x86上做水平浮点矢量和的最快方法

是否有针对intel avx2中的movemask指令的反向指令？

标签 统计

标签统计