相关疑难解决方法(0)

hd = _mm_hadd_epi16(_mm_cvtepi8_epi16(sum), _mm_cvtepi8_epi16(_mm_shuffle_epi8(sum, swap)));
hd = _mm_hadd_epi16(hd, hd);
hd = _mm_hadd_epi16(hd, hd);

Run Code Online (Sandbox Code Playgroud)

SSE4.1有更好的方法吗？

c++ x86 sse simd

use*_*848

2016 05-03

5
推荐指数

1
解决办法

811
查看次数

Simd Matmul程序给出不同的数值结果

我正在尝试使用simd内部函数在C中编程矩阵乘法。我非常确定自己的实现，但是执行时，我会从所得矩阵系数的第5位开始出现一些数字错误。

REAL_T只是具有typedef的浮点数

/* This is my matmul Version with simd, using floating simple precision*/
void matmul(int n, REAL_T *A, REAL_T *B, REAL_T *C){
  int i,j,k;
  __m256 vA, vB, vC, vRes;
  for (i=0; i<n; i++){
    for (j=0; j<n; j++){  
      for (k=0; k<n; k= k+8){
        vA = _mm256_load_ps(&A[i*n+k]);
        vB = _mm256_loadu_ps(&B[k*n+j]);
        vC = _mm256_mul_ps(vA, vB);
        vC = _mm256_hadd_ps(vC, vC);
        vC = _mm256_hadd_ps(vC, vC);
        /*To get the resulting coefficient, after doing 2 hadds,
        I have to get the first and the last element …

Run Code Online (Sandbox Code Playgroud)

c floating-point simd vectorization avx

abd*_*leb

2019 04-03

5
推荐指数

1
解决办法

84
查看次数

使用 AVX512 或 AVX2 计算所有打包 32 位整数总和的最快方法

我正在寻找一种最佳方法来计算 a __m256ior中所有打包的 32 位整数的总和__m512i。为了计算n 个元素的总和，我经常使用log2(n) vpaddd和vpermd函数，然后提取最终结果。但是，这不是我认为的最佳选择。

编辑：在速度/周期减少方面最佳/最佳。

c intrinsics avx avx2 avx512

thn*_*ghh

2020 07-27

5
推荐指数

1
解决办法

1772
查看次数

XMM/YMM/ZMM 中最小或最大元素索引的位旋转魔法

是否有指令或有效的无分支指令序列来计算无序（未排序）ZMM 的最大（或最小）元素的索引（而不是其值）？

数据类型并不重要 - 我更感兴趣的是知道是否有已建立的使用模式。

与已知解决方案相关的问题是，对于严格排序的 ZMM，可以使用 CMPPS、MOVMSKPS 和 TZCNT 来获取外部元素适合此列表的位置的索引（即 BSEARCH）

x86 assembly simd avx

Vel*_*ven

2021 03-13

5
推荐指数

1
解决办法

192
查看次数

乘法和求和/相加两个数组（点积）的最快方法 - 未对齐比 FMA 快得惊人

嗨我有以下代码：

public unsafe class MultiplyAndAdd : IDisposable
{
    float[] rawFirstData = new float[1024];
    float[] rawSecondData = new float[1024];

    static int alignment = 32;
    float[] alignedFirstData = new float[1024 + alignment / sizeof(float)];
    int alignedFirstDataOffset;
    GCHandle alignedFirstDataHandle;
    float* alignedFirstDataPointer;
    float[] alignedSecondData = new float[1024 + alignment / sizeof(float)];
    int alignedSecondDataOffset;
    GCHandle alignedSecondDataHandle;
    float* alignedSecondDataPointer;

    public IEnumerable<object[]> Data { get; set; }

    public void Dispose()
    {
        this.alignedFirstDataHandle.Free();
        this.alignedSecondDataHandle.Free();
    }

    //Calculate the offset that needs to be applied to ensure that the array …

Run Code Online (Sandbox Code Playgroud)

c# intrinsics avx2 fma .net-6.0

Pet*_*ter

2022 03-27

5
推荐指数

1
解决办法

1159
查看次数

Popcount 汇编/设置位的总索引

我想对设置位的所有索引求和。

http://bitmath.blogspot.com/2023/01/weighted-popcnt.html?m=1 \n有一个有趣的实现：

// sum of indexes of set bits\nint A073642(uint64_t n)\n{\n    return __popcnt64(n & 0xAAAAAAAAAAAAAAAA) +\n          (__popcnt64(n & 0xCCCCCCCCCCCCCCCC) << 1) +\n          (__popcnt64(n & 0xF0F0F0F0F0F0F0F0) << 2) +\n          (__popcnt64(n & 0xFF00FF00FF00FF00) << 3) +\n          (__popcnt64(n & 0xFFFF0000FFFF0000) << 4) +\n          (__popcnt64(n & 0xFFFFFFFF00000000) << 5);\n}\n

Run Code Online (Sandbox Code Playgroud)\n

（Godbolt：针对 MSVC、GCC 和 clang 的 x86-64-v3（AVX2，如 Haswell）编译器生成的 asm，有趣的是，它自动矢量化了四个 popcount。）

但是，我正在寻找一种无需多次使用 popcount 即可实现的方法。

我尝试在装配中执行此操作。popcount 操作相当快，但它可以用较少数量的指令完成，因为在每个 popcount 中我们重复相同的阶段（特别是如果硬件 popcount 不可用，比如在 RISC-V 上，或者 Nehalem 之前的 x86）。

这就像一个“位拼图\xe2\x80\x9d”，我可能应该使用一些智能掩码和汇编的基本指令（算术/逻辑运算、条件移动/设置/跳转），但我不\xe2\x80\ x99不知道怎么做。 …

assembly bit-manipulation x86-64 hammingweight micro-optimization

作者

2023 05-26

5
推荐指数

1
解决办法

643
查看次数

SSE rms计算

我想用Intel sse内在计算rms.像这样:

float rms( float *a, float *b , int l)
{
    int n=0;
    float r=0.0;
    for(int i=0;i<l;i++)
    {
        if(finitef(a[i]) && finitef(b[i]))
        {
            n++;
            tmp = a[i] - b[i];
            r += tmp*tmp;
        }
    }
    r /= n;
    return r;
}

Run Code Online (Sandbox Code Playgroud)

但是如何检查哪些元素是NaN？以及如何计算n？

c x86 sse simd nan

Rob*_*oby

2019 07-29

4
推荐指数

1
解决办法

758
查看次数