相关疑难解决方法(0)

我们现在知道的说明(24)

NOP PUSH/POP CALL/RET MOV/LEA ADD/SUB JMP/Jcc CMP/TEST AND/OR/XOR/NOT SHR/SHL IMUL/DIV REP STOS，REP MOV LEAVE

编写一个程序来查找我们尚未涵盖的指令，并在明天报告该指令。

他进一步断言这个任务是，

后面要介绍的说明不重要：SAL/SAR
上跳跃或变化MUL/IDIV变体IMUL/DIV也不要指望
额外的禁区说明：任何浮点数（因为我们没有在本课程中介绍这些内容。）
他在视频中说你不能使用内联汇编。（被问到时提到）。

是否可以找到 GCC 当前输出的 x86 汇编指令列表，而不是objdump随机执行并审核它们然后创建源代码？

这个问题的基础似乎是实际使用的指令的一个非常小的子集，人们需要知道逆向工程（这是课程的重点）。Xeno 似乎试图找到一种有趣的、有指导意义的方式来说明这一点，

我认为知道大约 20-30（不包括变化）就足够了，你很少会检查手册

虽然我欢迎大家加入我在 OpenSecurityTraining 的这个很棒的课程，但问题是我提出的从 GCC 中找出它的方法（如果可能的话）。不是，让人们真正完成 Xeno 的任务。;)

x86 assembly gcc instructions

Eva*_*oll

2018 02-28

6
推荐指数

2
解决办法

993
查看次数

什么是局部标志失速？

我刚刚查看了彼得·科德斯（Peter Cordes）的回答，他说，

如果读取标志，则部分标志停顿会发生，如果它们确实发生的话。P4永远不会有部分标志停顿，因为它们永远不需要合并。相反，它具有错误的依赖关系。几个答案/评论混淆了术语。它们描述了一个错误的依赖关系，但随后将其称为部分标志停顿。这是由于仅写入一些标志而导致的速度下降，但是术语“部分标志停顿”是指必须合并部分标志写入时在SnB之前的Intel硬件上发生的情况。英特尔SnB系列CPU插入一个额外的uop来合并标志而不会停顿。Nehalem和更早的失速约7个周期。我不确定AMD CPU会受到多大的损失。

我感觉我还不明白什么是“部分国旗摊位”。我怎么知道一个人发生了？除了读取标志的某些时间之外，什么触发事件？合并标志是什么意思？在什么情况下会“写一些标志”，但不会发生部分标志合并？我需要了解哪些有关旗位的知识才能理解它们？

x86 assembly

Eva*_*oll

2018 04-17

6
推荐指数

1
解决办法

291
查看次数

哪个Intel微体系结构引入了ADC reg,0单Uop特殊情况？

Haswell及更早版本的ADC通常为2 uops,有2个周期延迟,因为Intel uops传统上只能有2个输入(https://agner.org/optimize/).在Haswell为FMA引入3输入微指令和某些情况下的索引寻址模式的微融合之后,Broadwell/Skylake及其后来都有单uop ADC/SBB/CMOV .

(但不适用于adc al, imm8短格式编码,或其他al/ax/eax/rax,imm8/16/32/32短格式,没有ModRM.我的答案中有更详细的说明.)

但是adc,即时0是特殊的Haswell解码为只有一个uop. @BeeOnRope测试了这个,并在他的uarch-bench中包含了对这个性能怪癖的检查:https://github.com/travisdowns/uarch-bench.从输出样本CI一个的Haswell服务器上示出之间的差adc reg,0和adc reg,1或adc reg,zeroed-reg.

(对于SBB也是如此.就我所见,在任何CPU上具有相同立即数的等效编码,ADC和SBB性能之间从来没有任何差别.)

这个优化何时adc bl,0推出？

我测试了Core 2 ¹,发现imm=0延迟是2个周期,相同adc eax,0.同时,也是循环计数是与吞吐量测试一些变化相同的adc eax,3对比0,所以第一代的Core 2(Conroe处理器/ Merom处理器)并没有这样做优化.

回答这个问题的最简单方法可能是在Sandybridge系统上使用我的测试程序,看看是否3比它快adc eax,0.但基于可靠文档的答案也可以.

(顺便说一句,如果有人可以访问Sandybridge上的perf计数器,你还可以通过运行@ BeeOnRope的测试代码来清除在执行uop计数不是处理器宽度倍数的循环时性能降低的谜团.或者是性能我在不再工作的SnB上观察到的只是因为未分层与正常的uops有什么不同？)

脚注1:我在运行Linux的Core 2 E6600(Conroe/Merom)上使用了这个测试程序.

;; NASM / YASM
;; assemble / link this …

Run Code Online (Sandbox Code Playgroud)

performance x86 assembly intel micro-optimization

Pet*_*des

2019 09-20

6
推荐指数

2
解决办法

279
查看次数

指令长度

我正在查看汇编中的不同指令,我对如何决定不同操作数和操作码的长度感到困惑.

这是你应该从经验中得知的东西,还是有办法找出哪个操作数/运算符组合占用了多少字节？

例如:

push %ebp ; takes up one byte
mov %esp, %ebp ; takes up two bytes

Run Code Online (Sandbox Code Playgroud)

所以问题是:

在看到给定的指令后,如何推断出其操作码需要多少字节？

x86 assembly instruction-set machine-code code-size

作者

2018 02-20

5
推荐指数

2
解决办法

3790
查看次数

为什么我可以在寄存器中访问较低的双字/字/字节但不能更高？

我开始学习汇编程序,这对我来说并不合乎逻辑.

为什么我不能在寄存器中使用多个更高的字节？

我理解rax- > eax- > 的历史原因ax,所以让我们关注新的 64位寄存器.例如,我可以使用r8和r8d,但为什么不r8dl和r8dh？同样适用于r8w和r8b.

我最初的想法是,我可以使用8个r8b在同一时间寄存器(就像我可以做的al,并ah在同一时间).但我不能.并且使用r8b使完整的r8寄存器"忙".

这提出了一个问题 - 为什么？如果您不能同时使用其他部件,为什么还只需要使用寄存器的一部分？为什么不保持只r8忘记下部？

64-bit x86 assembly x86-64 cpu-registers

nik*_*ack

2017 08-05

5
推荐指数

1
解决办法

2664
查看次数

这个只有一个操作数的 x86-64 addq 指令是什么意思？（摘自CSAPP书籍第三版）

在下面的说明中，addq 是如何工作的？它只有一个操作数，书上声称它递增 %rdx，但 %rdx 不在这条指令中。我感到很困惑...

这是来自《计算机系统程序员视角》一书，第三版。

x86 assembly computer-science x86-64

Stu*_*222

2018 01-18

5
推荐指数

1
解决办法

3571
查看次数

为什么这个“std::atomic_thread_fence”起作用

首先我想谈一下我对此的一些理解，如有错误请指正。

aMFENCE在x86中可以保证全屏障
顺序一致性可防止 STORE-STORE、STORE-LOAD、LOAD-STORE 和 LOAD-LOAD 重新排序

这是根据维基百科的说法。
std::memory_order_seq_cst不保证防止 STORE-LOAD 重新排序。

这是根据Alex 的回答，“负载可能会通过早期存储重新排序到不同位置”（对于 x86），并且 mfence 不会总是被添加。

a是否std::memory_order_seq_cst表示顺序一致性？根据第2/3点，我认为这似乎不正确。std::memory_order_seq_cst仅当以下情况时才表示顺序一致性
1. 至少一个显式MFENCE添加到任一LOAD或STORE
2. LOAD（无栅栏）和 LOCK XCHG
3. LOCK XADD ( 0 ) 和 STORE （无栅栏）
否则仍有可能重新订购。

根据@LWimsey的评论，我在这里犯了一个错误，如果和LOAD都是STORE，memory_order_seq_cst则没有重新排序。Alex 可能指出使用非原子或非 SC 的情况。
std::atomic_thread_fence(memory_order_seq_cst)总是产生一个完整的屏障

这是根据Alex的回答。所以我总是可以替换asm volatile("mfence" ::: "memory")为std::atomic_thread_fence(memory_order_seq_cst)

这对我来说很奇怪，因为memory_order_seq_cst原子函数和栅栏函数之间的用法似乎有很大不同。

现在我在MSVC 2015的标准库的头文件中找到这段代码，它实现了std::atomic_thread_fence

inline void _Atomic_thread_fence(memory_order _Order)
    {   /* …

Run Code Online (Sandbox Code Playgroud)

c++ x86 memory-barriers stdatomic

cal*_*vin

2020 04-21

4
推荐指数

1
解决办法

2212
查看次数

标签统计

x86 ×10

assembly ×9

c++ ×2

x86-64 ×2

64-bit ×1

code-size ×1

computer-science ×1

cpu-registers ×1

flags ×1

gcc ×1

instruction-set ×1

instructions ×1

intel ×1

machine-code ×1

memory-barriers ×1

micro-optimization ×1

parity ×1

performance ×1

stdatomic ×1

标签 统计

标签统计