相关疑难解决方法(0)

在x86上做水平浮点矢量和的最快方法

你有一个三(或四)个浮点数的向量.总结它们的最快方法是什么？

SSE(movaps,shuffle,add,movd)总是比x87快吗？SSE4.2中的水平加法说明值得吗？移动到FPU的成本是多少,然后是faddp,faddp？什么是最快的特定指令序列？

"尝试安排事情,这样你可以一次总结四个向量"将不被接受作为答案.:-)

floating-point optimization x86 assembly sse

Fee*_*ure

lucky-day

41
推荐指数

4
解决办法

2万
查看次数

为什么编译器会生成此程序集？

在逐步执行一些Qt代码时,我遇到了以下内容.该函数QMainWindowLayout::invalidate()具有以下实现:

void QMainWindowLayout::invalidate()
{
QLayout::invalidate()
minSize = szHint = QSize();
}

Run Code Online (Sandbox Code Playgroud)

它被编译为:

<invalidate()>        push   %rbx
<invalidate()+1>      mov    %rdi,%rbx
<invalidate()+4>      callq  0x7ffff4fd9090 <QLayout::invalidate()>
<invalidate()+9>      movl   $0xffffffff,0x564(%rbx)
<invalidate()+19>     movl   $0xffffffff,0x568(%rbx)
<invalidate()+29>     mov    0x564(%rbx),%rax
<invalidate()+36>     mov    %rax,0x56c(%rbx)
<invalidate()+43>     pop    %rbx
<invalidate()+44>     retq

Run Code Online (Sandbox Code Playgroud)

从invalidate + 9到invalidate + 36的程序集似乎很愚蠢.首先,代码将-1写入%rbx + 0x564和%rbx + 0x568,但是然后它将-1从%rbx + 0x564加载回寄存器,只是将其写入%rbx + 0x56c.这似乎是编译器应该能够轻松优化到另一个立即行动的东西.

那么这个愚蠢的代码(如果是这样,为什么编译器不会对它进行优化？)或者这是否比使用另一个立即动作更聪明,更快？

(注意:此代码来自ubuntu提供的正常发布库版本,因此它可能是由GCC在优化模式下编译的.minSize而且szHint变量是类型的正常变量QSize.)

c++ assembly gcc compiler-optimization

Jan*_*nis

2013 05-22

17
推荐指数

2
解决办法

1085
查看次数

"存储缓冲区转发"在英特尔开发人员手册中的含义是什么？

在英特尔64和IA-32架构软件开发人员手册说,大约由单一处理器的行动("在P6更多最近的处理器系列内存排序和"第8.2.2节)重新排序如下:

读取可以使用较旧的写入到不同位置进行重新排序,但不能使用较旧的写入到同一位置.

接下来讨论与早期处理器相比放松的点时,它说:

存储缓冲区转发,当读取将写入传递到同一存储器位置时.

据我所知,"存储缓冲区转发"并未在任何地方精确定义(也不是"通过").读取将写入传递到同一位置是什么意思,因为上面说它不能通过写入同一位置来重新排序？

concurrency assembly intel cpu-architecture memory-model

jac*_*bsa

2017 04-24

12
推荐指数

2
解决办法

1965
查看次数

现代x86实现可以从多个先前的商店中存储转发吗？

如果负载与两个早期存储重叠(并且负载未完全包含在最早的存储中),现代Intel或AMD x86实现是否可以从两个存储转发以满足负载？

例如,请考虑以下顺序:

mov [rdx + 0], eax
mov [rdx + 2], eax
mov ax, [rdx + 1]

Run Code Online (Sandbox Code Playgroud)

最后的2字节加载从前一个存储区获取其第二个字节,但是它之前的存储区的第一个字节.这个负载可以存储转发,还是需要等到两个先前的存储都提交给L1？

请注意,通过存储转发,我包括任何可以满足仍然存储在缓冲区中的存储的读取的机制,而不是等待它们提交到L1,即使它是一个比最好的情况"转发"更慢的路径.单店"案例.

optimization performance x86 assembly micro-optimization

Bee*_*ope

2017 09-12

9
推荐指数

2
解决办法

688
查看次数

标签统计

assembly ×4

optimization ×2

x86 ×2

c++ ×1

compiler-optimization ×1

concurrency ×1

cpu-architecture ×1

floating-point ×1

gcc ×1

intel ×1

memory-model ×1

micro-optimization ×1

performance ×1

sse ×1

在x86上做水平浮点矢量和的最快方法

为什么编译器会生成此程序集？

"存储缓冲区转发"在英特尔开发人员手册中的含义是什么？

现代x86实现可以从多个先前的商店中存储转发吗？

标签 统计

标签统计