tmy*_*ebu 6 c++ multithreading memory-model c++11
以下模式在许多软件中很常见,这些软件想告诉用户它做了多少事情:
int num_times_done_it; // global
void doit() {
++num_times_done_it;
// do something
}
void report_stats() {
printf("called doit %i times\n", num_times_done_it);
// and probably some other stuff too
}
Run Code Online (Sandbox Code Playgroud)
不幸的是,如果多个线程可以在doit
没有某种同步的情况下调用,则并发读取 - 修改 - 写入num_times_done_it
可能是数据争用,因此整个程序的行为将是未定义的.此外,如果report_stats
可以在doit
没有任何同步的情况下同时调用,则在线程修改num_times_done_it
和报告其值的线程之间存在另一个数据争用.
通常,程序员只想要doit
尽可能少的开销来调用大多数正确的次数.
(如果你认为这个例子是微不足道的,Hogwild!比使用基本上这个技巧的数据无竞争随机梯度下降获得了显着的速度优势.而且,我相信Hotspot JVM正是这种无人看守,多线程访问共享计数器对于方法调用计数---虽然它是明确的,因为它生成汇编代码而不是C++ 11.)
明显的非解决方案:
volatile
到组合,使数据的比赛好了,更换的声明num_times_done_it
由volatile int num_times_done_it
不能解决任何事情.report_stats
,但这并不能解决doit
和之间的数据竞争report_stats
.此外,它很乱,它假设更新是关联的,并不真正适合Hogwild!的用法.是否有可能在一个非平凡的多线程C++ 11程序中实现具有良好定义语义的调用计数器,而无需某种形式的同步?
编辑:似乎我们可以使用memory_order_relaxed
以下方式稍微间接地执行此操作:
atomic<int> num_times_done_it;
void doit() {
num_times_done_it.store(1 + num_times_done_it.load(memory_order_relaxed),
memory_order_relaxed);
// as before
}
Run Code Online (Sandbox Code Playgroud)
但是,gcc 4.8.2
在x86_64(使用-O3)上生成此代码:
0: 8b 05 00 00 00 00 mov 0x0(%rip),%eax
6: 83 c0 01 add $0x1,%eax
9: 89 05 00 00 00 00 mov %eax,0x0(%rip)
Run Code Online (Sandbox Code Playgroud)
并clang 3.4
在x86_64上生成此代码(再次使用-O3):
0: 8b 05 00 00 00 00 mov 0x0(%rip),%eax
6: ff c0 inc %eax
8: 89 05 00 00 00 00 mov %eax,0x0(%rip)
Run Code Online (Sandbox Code Playgroud)
我对x86-TSO的理解是这两个代码序列都禁止中断和有趣的页面保护标志,完全等同于单指令存储器inc
和add
由简单代码生成的单指令存储器.这种使用是否memory_order_relaxed
构成数据竞争?
看来,memory_order_relaxed
诀窍是做到这一点的正确方法。
英特尔的德米特里·维尤科夫 (Dmitry Vyukov) 撰写的这篇博文首先准确回答了我的问题,然后列出了memory_order_relaxed
store
和load
作为正确的选择。
我仍然不确定这是否真的可以;尤其是N3710让我怀疑自己是否曾经理解过memory_order_relaxed
。
归档时间: |
|
查看次数: |
712 次 |
最近记录: |