相关疑难解决方法(0)

SSE有一些整数指令,但大多数指令处理浮点.看起来它不是设计用于整数(例如,是否有较小的整数比较？)
SSE的想法是SIMD(相同的指令,多个数据),因此它提供了2或4个独立操作的指令.另一方面,我希望有一个像128位整数加(128位输入和输出)的东西.这似乎不存在.(但是？在AVX2中可能？)
整数加法和减法既不处理输入也不处理输出.因此,手动操作非常麻烦(因而也很慢).

我的问题是:我的评估是正确的还是有什么我忽略的？长整数例程可以从SSE中受益吗？特别是,它们可以帮助我编写更快的添加,子或mul例程吗？

performance integer sse bignum arbitrary-precision

cxx*_*xxl

2013 12-24

19
推荐指数

1
解决办法

3773
查看次数

最快的方法来乘以int64_t数组？

我想矢量化两个内存对齐数组的乘法.我没有找到任何方法在AVX/AVX2中乘以64*64位,所以我只是循环展开和AVX2加载/存储.有更快的方法吗？

注意:我不想保存每次乘法的高半结果.

void multiply_vex(long *Gi_vec, long q, long *Gj_vec){

    int i;
    __m256i data_j, data_i;
    __uint64_t *ptr_J = (__uint64_t*)&data_j;
    __uint64_t *ptr_I = (__uint64_t*)&data_i;


    for (i=0; i<BASE_VEX_STOP; i+=4) {
        data_i = _mm256_load_si256((__m256i*)&Gi_vec[i]);
        data_j = _mm256_load_si256((__m256i*)&Gj_vec[i]);

        ptr_I[0] -= ptr_J[0] * q;
        ptr_I[1] -= ptr_J[1] * q;
        ptr_I[2] -= ptr_J[2] * q;
        ptr_I[3] -= ptr_J[3] * q;

        _mm256_store_si256((__m256i*)&Gi_vec[i], data_i);
    }


    for (; i<BASE_DIMENSION; i++)
        Gi_vec[i] -= Gj_vec[i] * q;
}

Run Code Online (Sandbox Code Playgroud)

更新: 我正在使用Haswell微体系结构和ICC/GCC编译器.所以AVX和AVX2都很好.我在乘法循环展开后-=用C inrisic 替换_mm256_sub_epi64它,在那里得到一些加速.目前,它是ptr_J[0] *= q; ...

我用, …

c vectorization multiplication avx avx2

Hél*_*ves

2016 05-19

17
推荐指数

2
解决办法

1359
查看次数

我可以使用AVX FMA单元进行精确的52位整数乘法吗？

AXV2没有任何整数乘法,其源大于32位.它提供32 x 32 - > 32乘法,以及32 x 32 - > 64乘以¹,但没有64位源.

假设我需要一个输入大于32位但小于或等于52位的无符号乘法 - 我可以简单地使用浮点DP乘法或FMA指令,并且当整数输入和输出时输出将是位精确的结果可以用52或更少的比特表示(即,在[0,2 ^ 52-1]范围内)？

如果我想要产品的所有104位更一般的情况怎么样？或整数乘积超过52位的情况(即,产品在位索引中的非零值> 52) - 但我只想要低52位？在后一种情况下,它MUL会给我更高的位并舍去一些低位(也许这就是IFMA帮助的？).

编辑:事实上,根据这个答案,也许它可以做任何高达2 ^ 53的事情- 我忘记了1在尾数之前隐含的领先有效地给了你一点.

¹有趣的是,正如Mysticial 在评论中所解释的那样,64位产品PMULDQ操作的延迟是32位PMULLD版本的一半,吞吐量是32位版本的两倍.

floating-point x86 simd avx2 fma

Bee*_*ope

2017 05-23

14
推荐指数

1
解决办法

1278
查看次数

在现代处理器中是否有128位整数的硬件支持？

我们是否仍然需要在软件中模拟128位整数,或者现在平均桌面处理器中是否有硬件支持？

cpu x86 int128

Fil*_*und

2015 12-12

13
推荐指数

2
解决办法

3755
查看次数

实用的BigNum AVX/SSE可能吗？

SSE/AVX寄存器可以被视为整数或浮点BigNums.也就是说,人们可以忽视存在通道.是否有一种简单的方法可以利用这种观点并将这些寄存器单独或组合用作BigNum？我问,因为我从BigNum库中看到的很少,它们几乎普遍存储并对数组进行算术运算,而不是SSE/AVX寄存器.可移植性？

例:

假设您将SSE寄存器的内容存储为a中的键std::set,您可以将这些内容作为BigNum进行比较.

sse simd biginteger avx extended-precision

use*_*108

2017 11-13

10
推荐指数

2
解决办法

3167
查看次数

这个128位整数乘法如何在汇编(x86-64)中工作？

我正在阅读计算机系统:程序员的观点,家庭作业是描述这种算法是如何工作的.

C功能:

void store_prod(__int128 *dest, int64_t x, int64_t y) {
    *dest = x * (__int128)y;
}

Run Code Online (Sandbox Code Playgroud)

部件:

movq %rdx, %rax
cqto
movq  %rsi, %rcx
sarq  $63,  %rcx
imulq %rax, %rcx
imulq %rsi, %rdx
addq  %rdx, %rcx
mulq  %rsi
addq  %rcx, %rdx
movq  %rax, (%rdi)
movq  %rdx, 8(%rdi)
ret

Run Code Online (Sandbox Code Playgroud)

我不知道它为什么表现: xh * yl + yh * xl = value which we add after unsigned multiplication

c assembly x86-64 128-bit

den*_*631

2015 11-25

7
推荐指数

2
解决办法

2007
查看次数