我发现了这个有趣且功能强大的工具IACA(英特尔架构代码分析器),但我无法理解它.我能用它做什么,它的局限性是什么?我该怎么做:
我试图在L1缓存中获得全部带宽,以便在Intel处理器上实现以下功能
float triad(float *x, float *y, float *z, const int n) {
float k = 3.14159f;
for(int i=0; i<n; i++) {
z[i] = x[i] + k*y[i];
}
}
Run Code Online (Sandbox Code Playgroud)
这是STREAM的三合一功能.
使用具有此功能的SandyBridge/IvyBridge处理器可获得约95%的峰值(使用NASM组装).但是,除非我展开循环,否则使用Haswell I仅达到峰值的62%.如果我展开16次,我得到92%.我不明白这一点.
我决定使用NASM在汇编中编写我的函数.装配中的主循环看起来像这样.
.L2:
vmovaps ymm1, [rdi+rax]
vfmadd231ps ymm1, ymm2, [rsi+rax]
vmovaps [rdx+rax], ymm1
add rax, 32
jne .L2
Run Code Online (Sandbox Code Playgroud)
在示例12.7-12.11 中的Agner Fog的优化组装手册中,他y[i] = y[i] +k*x[i]
对Pentium M,Core 2,Sandy Bridge,FMA4和FMA3 做了几乎相同的事情(但是).我设法或多或少地自己重现了他的代码(实际上他在广播时在FMA3示例中有一个小错误).除FMA4和FMA3外,他为每个处理器的表格提供指令大小计数,融合操作,执行端口.我曾试图为FMA3制作这张桌子.
ports
size ?ops-fused 0 1 2 3 4 5 6 7
vmovaps 5 1 ½ ½ …
Run Code Online (Sandbox Code Playgroud) __m128 a;
__m128 b;
Run Code Online (Sandbox Code Playgroud)
如何编码a != b
?
用什么:_mm_cmpneq_ps
或_mm_cmpneq_ss
?
如何处理结果?
找不到足够的文档.
I need a way to compare values of type __m128i
in C++ for a total order between any values of type __m128i
. The type of order doesn't matter as long as it establishes a total order between all values of type __m128i
. Hence the comparison might be less-than between 128-bit integers or something else entirely as long as is provides a total order.
I tried using the <
operator, but that didn't return a bool
, but instead …
检查AVX内在函数__m256
(8的向量float
)是否包含任何内容的最佳方法是什么inf
?我试过了
__m256 X=_mm256_set1_ps(1.0f/0.0f);
_mm256_cmp_ps(X,X,_CMP_EQ_OQ);
Run Code Online (Sandbox Code Playgroud)
但相比之下true
.请注意,此方法将找到nan
(与之比较false
).所以一种方法是检查X!=nan && 0*X==nan
:
__m256 Y=_mm256_mul_ps(X,_mm256_setzero_ps()); // 0*X=nan if X=inf
_mm256_andnot_ps(_mm256_cmp_ps(Y,Y,_CMP_EQ_OQ),
_mm256_cmp_ps(X,X,_CMP_EQ_OQ));
Run Code Online (Sandbox Code Playgroud)
但是,这看起来有点冗长.有更快的方法吗?