相关疑难解决方法(0)

取消优化英特尔Sandybridge系列CPU中管道的程序

我一直在绞尽脑汁想要完成这项任务一周,我希望有人能带领我走向正确的道路.让我从教师的指示开始:

您的作业与我们的第一个实验作业相反,即优化素数计划.你在这个任务中的目的是使程序失望,即让它运行得更慢.这两个都是CPU密集型程序.他们需要几秒钟才能在我们的实验室电脑上运行.您可能无法更改算法.

要取消优化程序,请使用您对英特尔i7管道如何运行的了解.想象一下重新排序指令路径以引入WAR,RAW和其他危险的方法.想一想最小化缓存有效性的方法.恶魔无能.

该作业选择了Whetstone或Monte-Carlo程序.缓存有效性评论大多只适用于Whetstone,但我选择了Monte-Carlo模拟程序:

// Un-modified baseline for pessimization, as given in the assignment
#include <algorithm>    // Needed for the "max" function
#include <cmath>
#include <iostream>

// A simple implementation of the Box-Muller algorithm, used to generate
// gaussian random numbers - necessary for the Monte Carlo method below
// Note that C++11 actually provides std::normal_distribution<> in 
// the <random> library, which can be used instead of this function
double gaussian_box_muller() {
  double x = 0.0;
  double y = 0.0; …

Run Code Online (Sandbox Code Playgroud)

c++ optimization x86 intel cpu-architecture

Cow*_*gun

2017 03-20

313
推荐指数

4
解决办法

4万
查看次数

num ++是'int num'的原子吗？

一般地,对于int num,num++(或++num),作为读-修改-写操作中,是不是原子.但我经常看到编译器,例如GCC,为它生成以下代码(在这里尝试):

由于第5行对应于num++一条指令,我们可以得出结论,在这种情况下num++ 是原子的吗？

如果是这样,是否意味着如此生成num++可以在并发(多线程)场景中使用而没有任何数据争用的危险(例如,我们不需要制作它,std::atomic<int>并强加相关成本,因为它是无论如何原子)？

UPDATE

请注意,这个问题不是增量是否是原子的(它不是,而且是问题的开头行).它是否可以在特定场景中,即在某些情况下是否可以利用单指令性质来避免lock前缀的开销.而且,作为公认的答案约单处理器的机器,还有部分提到这个答案,在其评论和其他人谈话解释,它可以(尽管不是C或C++).

c c++ assembly multithreading atomic

Leo*_*aar

2017 05-23

148
推荐指数

8
解决办法

1万
查看次数

什么时候使用volatile多线程？

如果有两个线程访问全局变量,那么许多教程都说使变量volatile变为阻止编译器将变量缓存在寄存器中,从而无法正确更新.但是,访问共享变量的两个线程是通过互斥锁来调用保护的东西不是吗？但是在这种情况下,在线程锁定和释放互斥锁之间,代码处于一个关键部分,只有那个线程可以访问变量,在这种情况下变量不需要是volatile？

那么多线程程序中volatile的用途/目的是什么？

c++ concurrency multithreading atomic volatile

Dav*_*ton

2018 12-12

121
推荐指数

3
解决办法

5万
查看次数

为什么没有一个主要编译器优化这个检查值是否已经设置的条件存储？

我偶然发现了这篇Reddit 帖子，它是对以下代码片段的一个玩笑，

void f(int& x) {
    if (x != 1) {
        x = 1;
    }
}
void g(int& x) {
    x = 1;
}

Run Code Online (Sandbox Code Playgroud)

说这两个函数不等同于“编译器”。我确信任何主要的 C++ 编译器都会将条件赋值优化为无条件存储，从而为f和发出相同的汇编代码g。

然而，他们没有。

谁能向我解释为什么会这样？

我的想法是：无条件存储很可能会更快，因为无论如何我们都必须访问内存来读取比较值，并且分支代码会给分支预测器带来压力。此外，编译器不应将存储视为副作用（AFAIK），即使后续内存访问可能会更快或更慢，具体取决于是否f由于缓存局部性而采用分支。

那么编译器就无法弄清楚这一点吗？虽然证明f和的等价性g可能并不容易，但我觉得这些编译器能够解决更困难的问题。那么我可能错了，这些功能毕竟不相等，或者这里发生了什么？

c++ micro-optimization compiler-optimization

chr*_*nte

2023 05-22

56
推荐指数

3
解决办法

5926
查看次数

什么是商店缓冲？

任何人都可以解释什么是加载缓冲区以及它与失效队列的不同之处.以及存储缓冲区和写入组合缓冲区之间的区别？Paul E Mckenny的论文http://www.rdrop.com/users/paulmck/scalability/paper/whymb.2010.07.23a.pdf 很好地解释了存储缓冲区和失效队列,但不幸的是没有谈到写入组合缓冲区

architecture hardware intel cpu-architecture

har*_*ddy

lucky-day

35
推荐指数

1
解决办法

2万
查看次数

在大多数处理器中,为什么L1缓存的大小小于L2缓存的大小？

memory caching processor cpu-architecture cpu-cache

Kar*_*uru

2018 06-12

29
推荐指数

3
解决办法

2万
查看次数

汇编:为什么我们要困扰寄存器？

我有一个关于装配的基本问题.

如果它们也可以在内存上工作,为什么我们只在寄存器上进行算术运算呢？

例如,以下两个原因(基本上)都将相同的值计算为答案:

片段1

.data
    var dd 00000400h

.code

    Start:
        add var,0000000Bh
        mov eax,var
        ;breakpoint: var = 00000B04
    End Start

Run Code Online (Sandbox Code Playgroud)

片段2

.code

    Start:
        mov eax,00000400h
        add eax,0000000bh
        ;breakpoint: eax = 0000040B
    End Start

Run Code Online (Sandbox Code Playgroud)

从我所看到的,大多数文本和教程主要在寄存器上进行算术运算.使用寄存器只是更快吗？

编辑:那很快:)

给出了一些很好的答案; 根据第一个好的答案选择了最佳答案.

math performance assembly cpu-architecture cpu-registers

Cam*_*Cam

2018 07-03

15
推荐指数

2
解决办法

1021
查看次数

"存储缓冲区转发"在英特尔开发人员手册中的含义是什么？

在英特尔64和IA-32架构软件开发人员手册说,大约由单一处理器的行动("在P6更多最近的处理器系列内存排序和"第8.2.2节)重新排序如下:

读取可以使用较旧的写入到不同位置进行重新排序,但不能使用较旧的写入到同一位置.

接下来讨论与早期处理器相比放松的点时,它说:

存储缓冲区转发,当读取将写入传递到同一存储器位置时.

据我所知,"存储缓冲区转发"并未在任何地方精确定义(也不是"通过").读取将写入传递到同一位置是什么意思,因为上面说它不能通过写入同一位置来重新排序？

concurrency assembly intel cpu-architecture memory-model

jac*_*bsa

2017 04-24

12
推荐指数

2
解决办法

1965
查看次数

乱序执行和记忆围栏

我知道现代CPU可以无序执行,但是他们总是按顺序退出结果,如维基百科所述.

"Out of Oder处理器及时填写这些"插槽"并准备好其他指令,然后在结尾处重新排序结果,使其看起来正常处理指令. "

现在,当使用多核平台时,据说需要内存防护,因为由于乱序执行,可以在此处打印错误的x值.

Processor #1:
 while f == 0
  ;
 print x; // x might not be 42 here

Processor #2:
 x = 42;
 // Memory fence required here
 f = 1

Run Code Online (Sandbox Code Playgroud)

现在我的问题是,由于乱序处理器(我假设MultiCore处理器的情况下的核心)总是按顺序退出结果,那么内存栅栏的必要性是什么.难道多核处理器的核心不会看到仅从其他核心退役的结果,或者它们是否也会看到正在进行中的结果？

我的意思是在我上面给出的例子中,当处理器2最终退出结果时,x的结果应该在f之前,对吗？我知道在乱序执行期间它可能在x之前修改了f,但它必须在x之前没有退役,对吗？

现在有了按顺序退出结果和缓存一致性机制,为什么你需要在x86中使用内存栅栏？

c cpu x86 memory-fences memory-barriers

Met*_*est

2011 09-08

10
推荐指数

2
解决办法

3033
查看次数

在JavaScript中增量是一个原子操作吗？

在JavaScript中增量是一个原子操作吗？如果一个线程正在访问++i;,同时另一个线程开始访问该操作会有任何问题吗？

javascript multithreading atomic thread-safety

作者

2017 03-30

10
推荐指数

3
解决办法

3933
查看次数

标签统计

cpu-architecture ×5

c++ ×4

assembly ×3

atomic ×3

intel ×3

multithreading ×3

c ×2

concurrency ×2

x86 ×2

architecture ×1

caching ×1

compiler-optimization ×1

cpu ×1

cpu-cache ×1

cpu-registers ×1

hardware ×1

javascript ×1

math ×1

memory ×1

memory-barriers ×1

memory-fences ×1

memory-model ×1

micro-optimization ×1

optimization ×1

performance ×1

processor ×1

thread-safety ×1

volatile ×1

标签 统计

标签统计