相关疑难解决方法(0)

什么是IACA以及如何使用它?

我发现了这个有趣且功能强大的工具IACA(英特尔架构代码分析器),但我无法理解它.我能用它做什么,它的局限性是什么?我该怎么做:

  • 用它来分析C或C++中的代码?
  • 用它来分析x86汇编程序中的代码?

c c++ performance assembly iaca

54
推荐指数
1
解决办法
7985
查看次数

在L1缓存中获取Haswell的峰值带宽:仅获得62%

我试图在L1缓存中获得全部带宽,以便在Intel处理器上实现以下功能

float triad(float *x, float *y, float *z, const int n) {
    float k = 3.14159f;
    for(int i=0; i<n; i++) {
        z[i] = x[i] + k*y[i];
    }
}
Run Code Online (Sandbox Code Playgroud)

这是STREAM的三合一功能.

使用具有此功能的SandyBridge/IvyBridge处理器可获得约95%的峰值(使用NASM组装).但是,除非我展开循环,否则使用Haswell I仅达到峰值的62%.如果我展开16次,我得到92%.我不明白这一点.

我决定使用NASM在汇编中编写我的函数.装配中的主循环看起来像这样.

.L2:
    vmovaps         ymm1, [rdi+rax]
    vfmadd231ps     ymm1, ymm2, [rsi+rax]
    vmovaps         [rdx+rax], ymm1
    add             rax, 32
    jne             .L2
Run Code Online (Sandbox Code Playgroud)

在示例12.7-12.11 中的Agner Fog的优化组装手册中,他y[i] = y[i] +k*x[i]对Pentium M,Core 2,Sandy Bridge,FMA4和FMA3 做了几乎相同的事情(但是).我设法或多或少地自己重现了他的代码(实际上他在广播时在FMA3示例中有一个小错误).除FMA4和FMA3外,他为每个处理器的表格提供指令大小计数,融合操作,执行端口.我曾试图为FMA3制作这张桌子.

                                 ports
             size   ?ops-fused   0   1   2   3   4   5   6   7    
vmovaps      5      1                    ½   ½ …
Run Code Online (Sandbox Code Playgroud)

c memory assembly nasm fma

47
推荐指数
1
解决办法
7594
查看次数

如何比较__m128类型?

__m128 a;
__m128 b;
Run Code Online (Sandbox Code Playgroud)

如何编码a != b

用什么:_mm_cmpneq_ps_mm_cmpneq_ss

如何处理结果?

找不到足够的文档.

x86 sse simd

9
推荐指数
1
解决办法
4600
查看次数

Compare two __m128i values for total order

I need a way to compare values of type __m128i in C++ for a total order between any values of type __m128i. The type of order doesn't matter as long as it establishes a total order between all values of type __m128i. Hence the comparison might be less-than between 128-bit integers or something else entirely as long as is provides a total order.

I tried using the < operator, but that didn't return a bool, but instead …

c++ x86 x86-64 simd intrinsics

7
推荐指数
1
解决办法
226
查看次数

如何检查AVX内在__m256的inf

检查AVX内在函数__m256(8的向量float)是否包含任何内容的最佳方法是什么inf?我试过了

__m256 X=_mm256_set1_ps(1.0f/0.0f);
_mm256_cmp_ps(X,X,_CMP_EQ_OQ);
Run Code Online (Sandbox Code Playgroud)

但相比之下true.请注意,此方法将找到nan(与之比较false).所以一种方法是检查X!=nan && 0*X==nan:

__m256 Y=_mm256_mul_ps(X,_mm256_setzero_ps());   // 0*X=nan if X=inf
_mm256_andnot_ps(_mm256_cmp_ps(Y,Y,_CMP_EQ_OQ),
                 _mm256_cmp_ps(X,X,_CMP_EQ_OQ));
Run Code Online (Sandbox Code Playgroud)

但是,这看起来有点冗长.有更快的方法吗?

c c++ sse intrinsics avx

3
推荐指数
1
解决办法
1437
查看次数

标签 统计

c ×3

c++ ×3

assembly ×2

intrinsics ×2

simd ×2

sse ×2

x86 ×2

avx ×1

fma ×1

iaca ×1

memory ×1

nasm ×1

performance ×1

x86-64 ×1