相关疑难解决方法(0)

使用AVX而不是AVX2，通过许多64位位掩码分别计算每个位的位置

（相关：如何在Sandy Bridge上的一系列int中快速将位计数到单独的bin中？是对此的早期复制，带有一些不同的答案。编者注：这里的答案可能更好。

同样，是类似问题的AVX2版本，整行位的许多bin比一个宽得多uint64_t：改进列填充计数算法）

我正在C中的一个项目中，我需要经历数千万个掩码（ulong类型（64位）），并target基于一个简单规则更新64个短整数（uint16）的数组（称为）：

// for any given mask, do the following loop
for (i = 0; i < 64; i++) {
    if (mask & (1ull << i)) {
        target[i]++
    }
}

Run Code Online (Sandbox Code Playgroud)

问题是我需要在数以百万计的蒙版上执行上述循环，并且我需要在不到一秒钟的时间内完成。想知道是否有任何方法可以加快它的速度，例如使用某种表示上述循环的特殊汇编指令。

目前，我在ubuntu 14.04（i7-2670QM，支持AVX，而不是AVX2）上使用gcc 4.8.4来编译和运行以下代码，大约需要2秒钟。很想让它在200ms以下运行。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/time.h>
#include <sys/stat.h>

double getTS() {
    struct timeval tv;
    gettimeofday(&tv, NULL);
    return tv.tv_sec + tv.tv_usec / 1000000.0;
}
unsigned int target[64];

int main(int argc, char *argv[]) {
    int i, …

Run Code Online (Sandbox Code Playgroud)

c optimization x86 x86-64 simd

pkt*_*der

2019 10-22

13
推荐指数

4
解决办法

635
查看次数