相关疑难解决方法(0)

为什么循环指令慢？英特尔无法有效实施吗？

LOOP(英特尔参考手动输入)递减ecx/rcx,然后如果非零则跳转.这很慢,但是英特尔不能廉价地把它变得很快吗？ dec/jnz已经将宏观融合成 Sandybridge家族的一个 uop; 唯一的区别是设置标志.

loop关于各种微体系结构,来自Agner Fog的说明表:

K8/K10:7 m-ops
Bulldozer-family/Ryzen:1 m-op(与宏观融合测试和分支相同,或者jecxz)
P4:4次(相同jecxz)
P6(PII/PIII):8次
Pentium M,Core2:11 uops
Nehalem:6个uops.(11为loope/ loopne).吞吐量= 4c(loop)或7c(loope/ne).
SnB家族:7个uops.(11为loope/ loopne). 吞吐量=每5个循环一个,这是将循环计数器保留在内存中的瓶颈!jecxz只有2 uops,吞吐量与普通吞吐量相同jcc
Silvermont:7次
AMD Jaguar(低功耗):8 uops,5c吞吐量
通过Nano3000:2 uops

难道解码器不能像lea rcx, [rcx-1]/ 那样解码jrcxz吗？这将是3 uops.至少那是没有地址大小前缀的情况,否则它必须使用ecx和截断RIP,EIP如果跳转; 也许奇怪的地址大小选择控制减量的宽度解释了许多uops？

或者更好,只需将其解码为不设置标志的融合分支和分支？ dec ecx …

performance x86 assembly intel cpu-architecture

Pet*_*des

2018 03-29

53
推荐指数

3
解决办法

6096
查看次数

旋转指令的目的是什么(ROL,x86上的RCL)？

我总是想知道一些CPU具有旋转指令的目的是什么(例如,ROL,x86上的RCL).什么样的软件使用这些说明？我首先想到它们可能用于加密/计算哈希码,但这些库通常用C编写,它没有映射到这些指令的运算符.
有没有人找到他们的用途？为什么他们在指令集中添加了哪些内容？

x86 assembly cpu-architecture machine-instruction

Gra*_*Lup

2011 02-12

29
推荐指数

3
解决办法

3万
查看次数

如何反转一个字节

我目前正在研究一个项目,碰巧我必须颠倒一个字节的顺序.我目前正在使用AVR Studio Mega32微控制器.

例如:

0000 0001 becomes 1000 0000
0001 0110 becomes 0110 1000
1101 1001 becomes 1001 1011

Run Code Online (Sandbox Code Playgroud)

首先,我有这个:

ldi r20,0b00010110

Run Code Online (Sandbox Code Playgroud)

反转字节的最简单方法是什么,使r20变为01101000？

assembly reverse byte avr atmega

ste*_*ana

2013 03-15

6
推荐指数

1
解决办法

5572
查看次数

标签统计

assembly ×3

cpu-architecture ×2

x86 ×2

atmega ×1

avr ×1

byte ×1

intel ×1

machine-instruction ×1

performance ×1

reverse ×1

为什么循环指令慢？英特尔无法有效实施吗？

旋转指令的目的是什么(ROL,x86上的RCL)？

如何反转一个字节

标签 统计

标签统计