相关疑难解决方法(0)

说明不需要提交一路有序.稍后的存储可以安全地提交并在之前的加载之前变得可见,只要在存储提交核心时可以保证先前的加载(以及所有中间指令)不会触发异常,并且加载的地址是保证与商店不同.
负载可以在其值已知之前提交.我不知道如何实现这一点.
商店在提交之前可以显示.也许某个内存缓冲区允许将存储转发到另一个线程的加载,即使负载先前已加入？
还有别的吗？

有许多假设的微体系结构特征可以解释这种行为,但我最好的是那些实际存在于现代弱有序CPU中的那些.

arm cpu-architecture memory-barriers

Pos*_*pia

2018 09-07

6
推荐指数

1
解决办法

546
查看次数

为什么 LOCK 是 x86 上的完整屏障？

为什么LOCK前缀会导致 x86 上的完全障碍？（因此它耗尽了存储缓冲区并具有顺序一致性）

对于LOCK/read-modify-write 操作，不需要完全屏障，对缓存行的独占访问似乎就足够了。这是设计选择还是有其他限制？

x86 cpu-architecture memory-barriers

A. *_* S.

2020 02-21

6
推荐指数

1
解决办法

380
查看次数

x86 mfence和C ++内存屏障

我正在检查编译器如何为x86_64上的多核内存屏障发出指令。以下代码是我正在测试的代码gcc_x86_64_8.3。

std::atomic<bool> flag {false};
int any_value {0};

void set()
{
  any_value = 10;
  flag.store(true, std::memory_order_release);
}

void get()
{
  while (!flag.load(std::memory_order_acquire));
  assert(any_value == 10);
}

int main()
{
  std::thread a {set};
  get();
  a.join();
}

Run Code Online (Sandbox Code Playgroud)

使用时std::memory_order_seq_cst，我可以看到该MFENCE指令用于任何优化-O1, -O2, -O3。该指令确保刷新了存储缓冲区，因此在L1D缓存中更新了它们的数据（并使用MESI协议确保其他线程可以看到效果）。

但是，当我std::memory_order_release/acquire不进行优化MFENCE使用时，也会使用指令，但是使用-O1, -O2, -O3优化会忽略该指令，并且不会看到其他刷新缓冲区的指令。

在MFENCE不使用的情况下，如何确保将存储缓冲区数据提交给高速缓存以确保内存顺序语义？

以下是使用get / set函数的汇编代码-O3，例如我们在Godbolt编译器资源管理器中获得的代码：

set():
        mov     DWORD PTR any_value[rip], 10
        mov     BYTE PTR flag[rip], 1
        ret


.LC0:
        .string …

Run Code Online (Sandbox Code Playgroud)

x86 gcc memory-model memory-barriers c++11

Adv*_*ere

2019 03-19

4
推荐指数

2
解决办法

470
查看次数

标签统计

cpu-architecture ×3

memory-barriers ×3

x86 ×3

assembly ×2

arm ×1

atomic ×1

c ×1

c++ ×1

c++11 ×1

gcc ×1

intel ×1

memory-model ×1

multithreading ×1

performance ×1

num ++是'int num'的原子吗？

英特尔硬件上的商店缓冲区大小？什么是商店缓冲区？

如何通过按顺序提交load-> store重新排序？

为什么 LOCK 是 x86 上的完整屏障？

x86 mfence和C ++内存屏障

标签 统计

标签统计