相关疑难解决方法(0)

在几台不同的机器上查看结果(针对64位编译),Skylake机器的性能明显优于Broadwell-E,保持OS(Win10-64),处理器速度和RAM速度(DDR4-2133)不变.我们不是说几个百分点,而是大约2个因素.Skylake配置为双通道,Broadwell-E的结果不会因双/三/四通道而异.

任何想法为什么会这样？随后的代码在VS2015的Release中编译,并报告完成每个memcpy的平均时间:

64位:Skylake为2.2ms,Broadwell-E为4.5ms

32位:Skylake为2.2ms,Broadwell-E为3.5ms.

通过利用多个线程,我们可以在四通道Broadwell-E构建上获得更大的内存吞吐量,这很不错,但是看到单线程内存访问的这种巨大差异令人沮丧.为什么差异如此显着的任何想法？

我们还使用了各种基准测试软件,他们验证了这个简单示例所展示的内容 - 单线程内存吞吐量在Skylake上更好.

#include <memory>
#include <Windows.h>
#include <iostream>

//Prevent the memcpy from being optimized out of the for loop
_declspec(noinline) void MemoryCopy(void *destinationMemoryBlock, void *sourceMemoryBlock, size_t size)
{
    memcpy(destinationMemoryBlock, sourceMemoryBlock, size);
}

int main()
{
    const int SIZE_OF_BLOCKS = 25000000;
    const int NUMBER_ITERATIONS = 100;
    void* sourceMemoryBlock = malloc(SIZE_OF_BLOCKS);
    void* destinationMemoryBlock = malloc(SIZE_OF_BLOCKS);
    LARGE_INTEGER Frequency;
    QueryPerformanceFrequency(&Frequency);
    while (true)
    {
        LONGLONG total = 0;
        LONGLONG max = 0;
        LARGE_INTEGER StartingTime, …

Run Code Online (Sandbox Code Playgroud)

performance benchmarking x86 intel cpu-architecture

agg*_*k02

2016 09-02

12
推荐指数

1
解决办法

1594
查看次数

如何使用 SIMD 计算字符出现次数

我得到了一个小写字符数组（最多 1.5Gb）和一个字符 c。我想使用 AVX 指令查找字符 c 出现了多少次。

    unsigned long long char_count_AVX2(char * vector, int size, char c){
    unsigned long long sum =0;
    int i, j;
    const int con=3;
    __m256i ans[con];
    for(i=0; i<con; i++)
        ans[i]=_mm256_setzero_si256();

    __m256i Zer=_mm256_setzero_si256();
    __m256i C=_mm256_set1_epi8(c);
    __m256i Assos=_mm256_set1_epi8(0x01);
    __m256i FF=_mm256_set1_epi8(0xFF);
    __m256i shield=_mm256_set1_epi8(0xFF);
    __m256i temp;
    int couter=0;
    for(i=0; i<size; i+=32){
        couter++;
        shield=_mm256_xor_si256(_mm256_cmpeq_epi8(ans[0], Zer), FF);
        temp=_mm256_cmpeq_epi8(C, *((__m256i*)(vector+i)));
        temp=_mm256_xor_si256(temp, FF);
        temp=_mm256_add_epi8(temp, Assos);
        ans[0]=_mm256_add_epi8(temp, ans[0]);
        for(j=1; j<con; j++){
            temp=_mm256_cmpeq_epi8(ans[j-1], Zer);
            shield=_mm256_and_si256(shield, temp);
            temp=_mm256_xor_si256(shield, FF);
            temp=_mm256_add_epi8(temp, Assos);
            ans[j]=_mm256_add_epi8(temp, ans[j]);
        }
    }
    for(j=con-1; j>=0; …

Run Code Online (Sandbox Code Playgroud)

c simd avx avx2

Ada*_*468

2023 06-11

8
推荐指数

1
解决办法

3814
查看次数

如何加速这个 LUT 查找的直方图？

首先，我有一个数组int a[1000][1000]。所有这些整数都在 0 到 32767 之间，它们是已知的常量：它们在程序运行期间永远不会改变。

其次，我有一个数组 b[32768]，它包含 0 到 32 之间的整数。我使用这个数组将 a 中的所有数组映射到 32 个 bin：

int bins[32]{};
for (auto e : a[i])//mapping a[i] to 32 bins.
    bins[b[e]]++;

Run Code Online (Sandbox Code Playgroud)

每次，数组 b 将用一个新数组初始化，我需要将数组 a 中的所有 1000 个数组（每个包含 1000 个整数）散列到 1000 个数组，每个数组包含 32 个整数，表示有多少整数落入其每个 bin 。

int new_array[32768] = {some new mapping};
copy(begin(new_array), end(new_array), begin(b));//reload array b;

int bins[1000][32]{};//output array to store results .
for (int i = 0; i < 1000;i++)
    for (auto e : a[i])//hashing a[i] …

Run Code Online (Sandbox Code Playgroud)

c++ optimization simd histogram

iou*_*vxz

2021 06-07

4
推荐指数

1
解决办法

1441
查看次数

如何使用 neon 内在函数优化直方图统计？

我想用 neon 内在函数优化直方图统计代码。但我没有成功。这是 c 代码：

#define NUM (7*1024*1024)
uint8 src_data[NUM];
uint32 histogram_result[256] = {0};
for (int i = 0; i < NUM; i++)
{
    histogram_result[src_data[i]]++;
}

Run Code Online (Sandbox Code Playgroud)

Historam 统计更像是串行处理。用 neon 内在函数很难优化。有人知道如何优化吗？提前谢谢。

intrinsics neon

mao*_*ofu

lucky-day

3
推荐指数

1
解决办法

1814
查看次数