相关疑难解决方法(0)

现代x86硬件可以不将单个字节存储到内存中吗？

说到C++的并发内存模型,Stroustrup的C++编程语言,第4版,第1节.41.2.1,说:

...(像大多数现代硬件一样)机器无法加载或存储任何小于单词的东西.

但是,我的x86处理器,几年前,可以存储小于一个字的对象.例如:

#include <iostream>
int main()
{
    char a =  5;
    char b = 25;
    a = b;
    std::cout << int(a) << "\n";
    return 0;
}

Run Code Online (Sandbox Code Playgroud)

如果没有优化,GCC将其编译为:

        [...]
        movb    $5, -1(%rbp)   # a =  5, one byte
        movb    $25, -2(%rbp)  # b = 25, one byte
        movzbl  -2(%rbp), %eax # load b, one byte, not extending the sign
        movb    %al, -1(%rbp)  # a =  b, one byte
        [...]

Run Code Online (Sandbox Code Playgroud)

评论是由我提出的,但是汇编是由GCC提出的.当然,它运行良好.

显然,我不明白Stroustrup在谈到硬件可以加载和存储任何小于一个单词的内容时所说的内容.据我所知,我的计划什么也不做,但加载和存储对象小于一个字的.

C++对零成本,硬件友好的抽象的彻底关注使C++与其他易于掌握的编程语言区别开来.因此,如果Stroustrup在公交车上有一个有趣的信号心理模型,或者有其他类似的东西,那么我想了解Stroustrup的模型.

什么是 Stroustrup谈论,拜托？

更长时间的背景声明 …

c++ concurrency x86 assembly memory-model

thb*_*thb

2017 10-13

25
推荐指数

2
解决办法

1869
查看次数

由运行时常量值重复整数除

在我的程序中的某个时刻,我计算整数除数d.从那时起d,这将是不变的.

稍后在代码中我将除以它d几次 - 执行整数除法,因为值d不是编译时已知常量.

鉴于与其他类型的整数运算相比,整数除法是一个相对较慢的过程,我想优化它.我可以存储一些替代格式d,以便分割过程执行得更快吗？也许是某种形式的倒数？

我不需要d其他任何东西的价值.

值d是任何64位整数,但通常很适合32位.

c++ optimization assembly x86-64

Cyg*_*sX1

2017 07-29

22
推荐指数

2
解决办法

1316
查看次数

为什么从多个线程使用相同的缓存行不会导致严重的减速？

看看这个片段:

#include <atomic>
#include <thread>

typedef volatile unsigned char Type;
// typedef std::atomic_uchar Type;

void fn(Type *p) {
    for (int i=0; i<500000000; i++) {
        (*p)++;
    }
}

int main() {
    const int N = 4;

    std::thread thr[N];
    alignas(64) Type buffer[N*64];

    for (int i=0; i<N; i++) {
        thr[i] = std::thread(&fn, &buffer[i*1]);
    }

    for (int i=0; i<N; i++) {
        thr[i].join();
    }

}

Run Code Online (Sandbox Code Playgroud)

这个小程序从四个不同的线程中多次增加四个相邻的字节.在此之前,我使用了以下规则:不要使用来自不同线程的相同缓存行,因为缓存线共享不好.所以我期望四线程版本(N=4)比一个线程版本(N=1)慢得多.

但是,这些是我的测量结果(在Haswell CPU上):

N = 1:1秒
N = 4:1.2秒

所以N=4速度并不慢.如果我使用不同的缓存行(替换*1为*64),则会 …

c++ performance x86 multithreading

gez*_*eza

2017 10-27

21
推荐指数

1
解决办法

1168
查看次数

根据CERT编码规则POS49-C访问共享结构中的相邻成员时的竞争条件？

根据CERT编码规则POS49-C,访问相同结构的不同字段的不同线程可能会发生冲突.

我使用常规的unsigned int而不是bit-field.

struct multi_threaded_flags {
  unsigned int flag1;
  unsigned int flag2;
};

struct multi_threaded_flags flags;

void thread1(void) {
  flags.flag1 = 1;
}

void thread2(void) {
  flags.flag2 = 2;
}

Run Code Online (Sandbox Code Playgroud)

我可以看到,即使是unsigned int,仍然可能存在竞争条件IF编译器决定使用加载/存储8个字节而不是4个字节.我认为编译器永远不会这样做,赛车条件永远不会发生在这里,但这完全是我的猜测.

是否有关于此案例的明确定义的汇编/编译器文档？我希望锁定,这是昂贵的,是这种情况恰好未定义的最后手段.

仅供参考,我使用gcc.

c assembly multithreading gcc pthreads

Ban*_*kde

2017 11-15

7
推荐指数

1
解决办法

437
查看次数