相关疑难解决方法(0)

x86如何在spinlock中暂停指令,可以在其他场景中使用吗？

暂停指令通常用于测试自旋锁的循环,当一些其他线程拥有自旋锁时,以缓解紧密循环.据说这相当于一些NOP指令.有人能告诉我它是如何适用于自旋锁优化的吗？在我看来,即使是NOP指令也浪费了CPU时间.它们会降低CPU使用率吗？

另一个问题是我可以将暂停指令用于其他类似目的.例如,我有一个忙线程,它不断扫描一些地方(例如队列)以检索新节点; 但是,有时队列是空的,线程只是在浪费cpu时间.睡眠线程并通过其他线程唤醒它可能是一个选项,但线程是关键的,所以我不想让它睡觉.可以暂停指令工作以减轻CPU使用率吗？目前它使用100%cpu的物理核心？

谢谢.

x86 multithreading spinlock

Inf*_*ite

lucky-day

37
推荐指数

3
解决办法

2万
查看次数

cmpxchg 是否会在失败时写入目标缓存行？如果不是，对于自旋锁来说它比 xchg 更好吗？

我假设简单的自旋锁不会进入操作系统等待这个问题的目的。

我发现简单的自旋锁通常使用lock xchgorlock bts代替来实现lock cmpxchg。

cmpxchg但是如果期望不匹配，是否会避免写入该值？那么失败的尝试不是更便宜吗cmpxchg？

或者即使cmpxchg发生故障也会写入数据并使其他核心的缓存线无效？

这个问题类似于什么具体将 x86 缓存行标记为脏 - 任何写入，还是需要显式更改？，但它是特定的cmpxchg，而不是普遍的。

x86 assembly micro-optimization compare-and-swap cpu-cache

Ale*_*iev

2020 07-21

5
推荐指数

1
解决办法

1195
查看次数

通过内联汇编锁定内存操作

我是低级别的新手,所以我完全忘记了你可能面临的问题,我甚至不确定我是否理解"原子"一词.现在我试图通过扩展程序集围绕内存操作进行简单的原子锁.为什么？为了好奇.我知道我在这里重新发明轮子,可能会过度简化整个过程.

这个问题？ 我在这里提供的代码是否实现了使内存操作既线程安全又可重入的目标？

如果它有效,为什么？
如果它不起作用,为什么？
还不够好？我应该在C中使用register关键字吗？

我只想做...

在内存操作之前,锁定.
记忆操作后,解锁.

代码:

volatile int atomic_gate_memory = 0;

static inline void atomic_open(volatile int *gate)
{
    asm volatile (
        "wait:\n"
        "cmp %[lock], %[gate]\n"
        "je wait\n"
        "mov %[lock], %[gate]\n"
        : [gate] "=m" (*gate)
        : [lock] "r" (1)
    );
}

static inline void atomic_close(volatile int *gate)
{
    asm volatile (
        "mov %[lock], %[gate]\n"
        : [gate] "=m" (*gate)
        : [lock] "r" (0)
    );
}

Run Code Online (Sandbox Code Playgroud)

然后像:

void *_malloc(size_t size)
{
        atomic_open(&atomic_gate_memory);
        void *mem = malloc(size);
        atomic_close(&atomic_gate_memory); …

Run Code Online (Sandbox Code Playgroud)

c memory assembly memory-management locking

use*_*831

lucky-day

3
推荐指数

1
解决办法

1214
查看次数

为什么 AMD-CPU 有如此愚蠢的暂停计时

我开发了一个类似于 Java for C++ 的监视器对象，并进行了一些改进。主要的改进是不仅有一个用于锁定和解锁的自旋循环，而且还有一个用于等待事件的自旋循环。在这种情况下，您不必锁定互斥体，而是在 wait_poll 函数上提供谓词，并且代码反复尝试锁定互斥体轮询，如果它可以锁定互斥体，则它会调用返回（或移动）一对的谓词bool 和结果类型。

即使调用立即返回，等待内核中的信号量和/或事件对象 (Win32) 也很容易花费 1.000 到 10.000 个时钟周期，因为之前已经设置了信号量或事件。因此，必须有一个与该等待间隔具有合理关系的旋转计数，其中旋转的时间是内核中所花费的最小间隔的十分之一。

通过我的监控对象，我从 glibc 中获取了自旋计数重新计算算法。我还使用暂停指令。但我发现在我的CPU（TR 3900X）上暂停指令太快了。平均约为 0.78ns。在 Intel-CPU 上，它更合理，约为 30 纳秒。

这是代码：

#include <iostream>
#include <chrono>
#include <cstddef>
#include <cstdint>
#include <immintrin.h>

using namespace std;
using namespace chrono;

int main( int argc, char **argv )
{
    static uint64_t const PAUSE_ROUNDS = 1'000'000'000;
    auto start = high_resolution_clock::now();
    for( uint64_t i = PAUSE_ROUNDS; i; --i )
        _mm_pause();
    double ns = (int64_t)duration_cast<nanoseconds>( high_resolution_clock::now() - start ).count() / (double)PAUSE_ROUNDS;
    cout << …

Run Code Online (Sandbox Code Playgroud)

x86 assembly spinlock spinwait amd-processor

Bon*_*ero

2021 09-26

1
推荐指数

1
解决办法

605
查看次数

CPU 限制在发布模式下的 Xcode 中不再起作用

我有一个对性能敏感的 XCode C++ 项目，并且我正在使用 CPU 节流技巧。本质上我添加了这段代码：

// function to occupy a thread for an infinite amount of time
void coreEngager() {
    while (true) {}
}

// call it in the background thread
std::thread t1(coreEngager);

// call it once the work is done
t1.detach();

Run Code Online (Sandbox Code Playgroud)

这个小技巧可以将计算速度提高约 50%，这对我来说非常重要。但我最近发现了一个问题 - 如果我尝试在发布模式下运行该项目，此代码会崩溃。函数中发生崩溃coreEngager。我以前没有这个问题，现在在 Linux 和 Windows 上也没有这个问题。您能否告知发生了什么变化或如何使 CPU 限制在 MacOS 上发挥作用？

c++ macos cpu xcode throttling

Eug*_*eev

lucky-day

0
推荐指数

1
解决办法

102
查看次数