相关疑难解决方法(0)

为什么mulss在Haswell上只用了3个周期,与Agner的指令表不同？

我是指令优化的新手.

我对一个简单的函数dotp进行了简单的分析,该函数用于获取两个浮点数组的点积.

C代码如下:

float dotp(               
    const float  x[],   
    const float  y[],     
    const short  n      
)
{
    short i;
    float suma;
    suma = 0.0f;

    for(i=0; i<n; i++) 
    {    
        suma += x[i] * y[i];
    } 
    return suma;
}

Run Code Online (Sandbox Code Playgroud)

我用昂纳雾在网络上提供的测试框架testp.

在这种情况下使用的数组是对齐的:

int n = 2048;
float* z2 = (float*)_mm_malloc(sizeof(float)*n, 64);
char *mem = (char*)_mm_malloc(1<<18,4096);
char *a = mem;
char *b = a+n*sizeof(float);
char *c = b+n*sizeof(float);

float *x = (float*)a;
float *y = (float*)b;
float *z = (float*)c;

Run Code Online (Sandbox Code Playgroud)

然后我调用函数dotp,n = 2048,repeat …

c optimization assembly sse micro-optimization

For*_*ard

2019 10-30

31
推荐指数

1
解决办法

1471
查看次数

什么是浮点加法与浮点加法的相对速度

十年或两年前,编写数字代码以避免使用乘法和除法并使用加法和减法是值得的.一个很好的例子是使用前向差异来评估多项式曲线,而不是直接计算多项式.

是否仍然如此,或者现代计算机架构已经发展到*,/不再比+慢很多倍, - ？

具体来说,我对在现代典型x86芯片上运行的编译C/C++代码感兴趣,这些代码具有广泛的板载浮点硬件,而不是一个小型微软试图在软件中进行FP.我意识到流水线和其他架构增强功能排除了特定的循环计数,但我仍然希望获得有用的直觉.

floating-point x86 mips numerical-computing flops

J. *_*son

2009 07-18

29
推荐指数

3
解决办法

2万
查看次数

获取CPU周期数？

我在SO上看到这篇文章,其中包含C代码以获取最新的CPU周期数:

基于CPU周期计算的C/C++ Linux x86_64中的分析

有没有办法在C++中使用这个代码(欢迎使用windows和linux解决方案)？虽然用C语言编写(而C是C++的一个子集)但我不太确定这段代码是否适用于C++项目,如果没有,如何翻译呢？

我使用的是x86-64

EDIT2:

找到此功能但无法让VS2010识别汇编程序.我需要包含任何内容吗？(我相信我必须换uint64_t到long long窗户......？)

static inline uint64_t get_cycles()
{
  uint64_t t;
  __asm volatile ("rdtsc" : "=A"(t));
  return t;
}

Run Code Online (Sandbox Code Playgroud)

EDIT3:

从上面的代码我得到错误:

"错误C2400:'操作码'中的内联汇编语法错误;找到'数据类型'"

有人可以帮忙吗？

c c++ performance x86 rdtsc

use*_*112

2019 07-03

26
推荐指数

5
解决办法

4万
查看次数

SIMD指令降低CPU频率

我读了这篇文章。它谈到了为什么AVX-512指令：

英特尔最新的处理器具有高级指令（AVX-512），这可能会导致内核或其他CPU的运行速度变慢，这是因为它们使用了多少电量。

我认为在Agner的博客上也提到了类似的内容（但我找不到确切的帖子）。

我想知道Skylake支持的其他哪些指令会产生类似的效果，即它们会降低功耗以在以后最大化吞吐量吗？所有前缀v指令（如vmovapd，vmulpd，vaddpd，vsubpd，vfmadd213pd）？

我正在尝试编译说明列表，以避免在为Xeon Skylake编译C ++应用程序时避免。

optimization x86 intel compiler-optimization avx512

HCS*_*CSF

2019 07-03

12
推荐指数

2
解决办法

564
查看次数

如何减轻英特尔 jcc 勘误对 gcc 的影响？

如果我有一个受Intel jcc erratum约束的芯片，我如何在 gcc 中启用缓解（它调整分支位置以避免有问题的对齐），以及哪些 gcc 版本支持它？

x86 gcc intel compiler-flags

Bee*_*ope

lucky-day

9
推荐指数

1
解决办法

139
查看次数

现在在 x86-64 上还值得使用 Quake 快速反平方根算法吗？

具体来说，这是我正在讨论的代码：

float InvSqrt(float x) {
  float xhalf = 0.5f*x;
  int i = *(int*)&x;        // warning: strict-aliasing UB, use memcpy instead
  i = 0x5f375a86- (i >> 1);
  x = *(float*)&i;          // same
  x = x*(1.5f-xhalf*x*x);
  return x;  
}

Run Code Online (Sandbox Code Playgroud)

我忘了我从哪里得到这个，但它显然比原来的 Quake III 算法（魔法常数略有不同）更好、更高效或更精确，但这个算法创建以来已经有 20 多年了，我只是想知道它是否是就性能而言，或者如果有一条指令已经在现代 x86-64 CPU 中实现了它，那么仍然值得使用它。

algorithm optimization x86-64 micro-optimization sqrt

Bad*_*dea

2022 03-25

8
推荐指数

1
解决办法

3763
查看次数

为什么 CPU 不能在一个简单的循环中实现相当于 Ghz 的 FLOP 性能？

我想知道为什么像这样的简单循环无法达到我的 CPU 时钟速度（4,2Ghz）：

float sum = 0;    
for (int i = 0; i < 1000000; i+=1) {
    sum = sum * 1 + 1;
}

Run Code Online (Sandbox Code Playgroud)

凭直觉，我希望在不到 1 毫秒（例如 0,238 毫秒）的时间内实现这一目标，每秒进行 42 亿次迭代。但我得到的时间约为 3 毫秒，即每秒约 3.33 亿次迭代。

我假设做数学运算需要 2 个周期，一个用于乘法，另一个用于求和。假设我正在执行 6.66 亿次操作……看起来仍然很慢。然后我假设循环比较需要一个周期，循环计数器需要另一个周期......

所以我创建了以下代码来删除循环......

void listOfSums() {
    float internalSum = 0;
    internalSum = internalSum * 1 + 1;
    internalSum = internalSum * 1 + 1;
    internalSum = internalSum * 1 + 1;
    internalSum = internalSum * 1 + 1;
    // Repeated 100k …

Run Code Online (Sandbox Code Playgroud)

c cpu assembly

Vla*_*lav

lucky-day

3
推荐指数

1
解决办法

312
查看次数

必须按顺序发生的操作的处理器的延迟界限和吞吐量界限

我的教科书（计算机系统：程序员的观点）指出，当一系列操作必须严格按顺序执行时，就会遇到延迟界限，而吞吐量界限则表征处理器功能单元的原始计算能力。

课本5.5、5.6题介绍了这两种可能的多项式计算循环结构

double result = a[0];
double xpwr = x;
for (int i = 1; i <= degree; i++) {
    result += a[i] * xpwr;
    xpwr = x * xpwr;
}

Run Code Online (Sandbox Code Playgroud)

和

double result = a[degree];
double xpwr = x;
for (int i = degree - 1; i >= 0; i--) {
    result = a[i] + x * result;
}

Run Code Online (Sandbox Code Playgroud)

假设循环在具有以下执行单元的微体系结构上执行：

一个浮点加法器。它的延迟为 3 个周期，并且是完全流水线化的。
两个浮点乘法器。每个的延迟是 5 个周期，并且都是完全流水线化的。
四个整数 ALU，每个都有一个周期的延迟。

为这个问题给出的浮点乘法和加法的延迟界限分别是 5.0 和 3.0。根据答案键，第一个循环的总循环延迟是每个元素 5.0 个周期，第二个是每个元素 8.0 个周期。我不明白为什么第一个循环不是 8.0。

似乎 a[i] …

performance cpu-architecture micro-optimization

moo*_*lin

2020 07-28

1
推荐指数

1
解决办法

194
查看次数

sqrtpd指令是否同时计算sqrt？

我正在学习 SIMD 内在函数和并行计算。我不确定Intel对x86指令的定义sqrtpd是否表示将同时计算传递给它的两个数字的平方根：

对源操作数（第二个操作数）中的两个、四个或八个压缩双精度浮点值的平方根执行 SIMD 计算，并将压缩双精度浮点结果存储在目标操作数（第二个操作数）中第一个操作数）。

我知道它明确表示SIMD 计算，但这是否意味着对于此操作，将同时计算两个数字的根？

parallel-processing sse simd cpu-architecture intrinsics

sth*_*55

2022 06-06

0
推荐指数

1
解决办法

388
查看次数

标签统计

x86 ×4

c ×3

micro-optimization ×3

optimization ×3

assembly ×2

cpu-architecture ×2

intel ×2

performance ×2

sse ×2

algorithm ×1

avx512 ×1

c++ ×1

compiler-flags ×1

compiler-optimization ×1

cpu ×1

floating-point ×1

flops ×1

gcc ×1

intrinsics ×1

mips ×1

numerical-computing ×1

parallel-processing ×1

rdtsc ×1

simd ×1

sqrt ×1

x86-64 ×1

标签 统计

标签统计