小编Pet*_*des的帖子

问题:是否存在Intel/AMD/etc x86 CPU,它们保证读取或写入与16字节边界对齐的16字节(128位)作为单个内存访问执行？是这样,它是哪种特定类型的CPU(Core2/Atom/K8/Phenom/...)？如果您对此问题提供答案(是/否),请同时指定用于确定答案的方法 - PDF文档查找,强力测试,数学证明或您用于确定答案的任何其他方法.

此问题涉及http://research.swtch.com/2010/02/off-to-races.html等问题

更新:

我在C中创建了一个可以在您的计算机上运行的简单测试程序.请在您的Phenom,Athlon,Bobcat,Core2,Atom,Sandy Bridge或您碰巧拥有的任何支持SSE2的CPU上编译并运行它.谢谢.

// Compile with:
//   gcc -o a a.c -pthread -msse2 -std=c99 -Wall -O2
//
// Make sure you have at least two physical CPU cores or hyper-threading.

#include <pthread.h>
#include <emmintrin.h>
#include <stdio.h>
#include <stdint.h>
#include <string.h>

typedef int v4si __attribute__ ((vector_size (16)));
volatile v4si x;

unsigned n1[16] __attribute__((aligned(64)));
unsigned n2[16] __attribute__((aligned(64)));

void* thread1(void *arg) {
        for (int i=0; i<100*1000*1000; i++) { …

Run Code Online (Sandbox Code Playgroud)

concurrency x86 sse atomic thread-safety

作者

2015 10-10

30
推荐指数

3
解决办法

7100
查看次数

现代x86成本模型

我正在编写一个带有x86后端的JIT编译器,并且随时学习x86汇编器和机器代码.大约20年前我使用ARM汇编程序,并对这些体系结构之间的成本模型差异感到惊讶.

具体来说,内存访问和分支在ARM上很昂贵,但在x86上等效的堆栈操作和跳转很便宜.我相信现代x86 CPU比ARM内核做更多的动态优化,我发现很难预测它们的影响.

编写x86汇编程序时要记住什么是好的成本模型？哪些指令组合便宜又昂贵？

例如,如果它总是生成用于加载整数或跳转到偏移的长格式,即使整数很小或偏移量接近但这会影响性能,我的编译器会更简单吗？

我还没有做任何浮动点,但我很快就会接受它.普通代码和浮动代码之间的相互作用有什么不明显的吗？

我知道有很多关于x86优化的参考文献(例如Michael Abrash),但我有一个预感,而不是几年前的任何东西都不适用于现代的x86 CPU,因为它们最近发生了很大的变化.我对么？

floating-point performance x86 assembly micro-optimization

Jon*_*rop

2018 09-24

30
推荐指数

2
解决办法

2607
查看次数

Haswell/Skylake的部分寄存器究竟如何表现？写AL似乎对RAX有假依赖,而AH是不一致的

此循环在英特尔Conroe/Merom上每3个周期运行一次,imul按预期方式在吞吐量方面存在瓶颈.但是在Haswell/Skylake上,它每11个循环运行一次,显然是因为setnz al它依赖于最后一个循环imul.

; synthetic micro-benchmark to test partial-register renaming
    mov     ecx, 1000000000
.loop:                 ; do{
    imul    eax, eax     ; a dep chain with high latency but also high throughput
    imul    eax, eax
    imul    eax, eax

    dec     ecx          ; set ZF, independent of old ZF.  (Use sub ecx,1 on Silvermont/KNL or P4)
    setnz   al           ; ****** Does this depend on RAX as well as ZF?
    movzx   eax, al
    jnz  .loop         ; }while(ecx);

Run Code Online (Sandbox Code Playgroud)

如果setnz al …

x86 assembly intel cpu-architecture micro-optimization

Pet*_*des

2017 08-21

30
推荐指数

2
解决办法

1537
查看次数

为什么 gcc 在条件乘法的 std::vector<float> 向量化方面比 clang 差得多？

考虑使用以下 float 循环，使用 -O3 -mavx2 -mfma 编译

for (auto i = 0; i < a.size(); ++i) {
    a[i] = (b[i] > c[i]) ? (b[i] * c[i]) : 0;
}

Run Code Online (Sandbox Code Playgroud)

Clang 在矢量化方面做得非常出色。它使用 256 位 ymm 寄存器，并了解 vblendps/vandps 之间的差异，以获得尽可能最佳的性能。

.LBB0_7:
        vcmpltps        ymm2, ymm1, ymm0
        vmulps  ymm0, ymm0, ymm1
        vandps  ymm0, ymm2, ymm0

Run Code Online (Sandbox Code Playgroud)

然而，海湾合作委员会的情况要糟糕得多。由于某种原因，它并没有比 SSE 128 位向量更好（-mprefer-vector-width=256 不会改变任何东西）。

.L6:
        vcomiss xmm0, xmm1
        vmulss  xmm0, xmm0, xmm1
        vmovss  DWORD PTR [rcx+rax*4], xmm0

Run Code Online (Sandbox Code Playgroud)

如果将其替换为普通数组（如指南中所示），gcc 会将其矢量化为 AVX ymm。

int a[256], b[256], c[256];
auto foo …

Run Code Online (Sandbox Code Playgroud)

c++ gcc vectorization avx compiler-optimization

Vla*_*gan

2023 07-14

30
推荐指数

2
解决办法

3498
查看次数

在大多数处理器中,为什么L1缓存的大小小于L2缓存的大小？

memory caching processor cpu-architecture cpu-cache

Kar*_*uru

2018 06-12

29
推荐指数

3
解决办法

2万
查看次数

在 x86 汇编中取两个有符号整数的平均值的最快方法？

假设我们有两个寄存器长度^{为 2}有符号^{1 的}整数，例如a和b。我们想要计算值(a + b) / 2，向上舍入、向下舍入、向零舍入或远离零舍入，无论哪种方式更容易（即我们不关心舍入方向）。

结果是另一个寄存器长度有符号整数（很明显，平均值必须在寄存器长度有符号整数的范围内）。

执行此计算最快的方法是什么？

您可以选择两个整数最初位于哪个寄存器中，以及平均值最终位于哪个寄存器中。

脚注1：对于无符号整数，我们可以用两条指令来完成。尽管循环进位在 Intel CPU 上超过 1 uop，但这可能是最快的方法。但当计数仅为 1 时，只有一对。关于无符号均值的问答中的答案讨论了效率。

add rdi, rsi\nrcr rdi, 1\n

Run Code Online (Sandbox Code Playgroud)\n

rdi这两个数字以和开始rsi，平均值以结束rdi。但对于有符号数，-1 + 3将设置 CF，并将 a 旋转1到符号位。没有给出正确答案+1。

脚注 2：我指定了寄存器长度的有符号整数，这样我们就不能简单地用movsxdorcdqe指令对整数进行符号扩展。

我得到的最接近的解决方案使用四个指令，其中一个rcr在 Intel 上为 3 uops，在 AMD …

optimization x86 assembly average micro-optimization

Ber*_*ard

2022 07-27

29
推荐指数

2
解决办法

3016
查看次数

标签统计

x86 ×5

assembly ×4

cpu-architecture ×3

micro-optimization ×3

atomic ×1

average ×1

avx ×1

c++ ×1

caching ×1

callstack ×1

compiler-optimization ×1

concurrency ×1

cpu-cache ×1

floating-point ×1

gcc ×1

intel ×1

kernel ×1

linux ×1

machine-code ×1

macos ×1

memory ×1

memory-management ×1

mips ×1

optimization ×1

osx-mavericks ×1

perf ×1

performance ×1

performancecounter ×1

processor ×1

profiling ×1

sse ×1

stack ×1

thread-safety ×1

vectorization ×1

virtual-memory ×1

标签 统计

小编Pet_des的帖子

标签统计