arm64 程序集：LDP 与 LD4 执行时间

fcd*_*cdt 6 performance assembly arm simd arm64

假设我想从连续的内存位置加载四个连续的 aarch64 向量寄存器。一种方法是

ldp   q0, q1, [x0]
ldp   q2, q3, [x0, 32]

Run Code Online (Sandbox Code Playgroud)

根据Cortex A72（我的目标处理器）的ARM 优化指南，这两条指令中的每一条在 L-pipeline 上都需要 6 个周期的执行时间，总共 12 个周期。

但我也可以使用交错加载，这允许我一次加载所有 4 个寄存器：

ld4   {v0.2d, v1.2d, v2.2d, v3.2d}, [x0]

Run Code Online (Sandbox Code Playgroud)

根据上述指南，这也节省了我的代码大小，并且总共只需要 8 个执行时间周期。

我知道交错意味着数据在我的寄存器中的存储方式不同，但应该假设我以后的使用可以处理交错和非交错数据。 （例如，对数组求和。）

正如我从理论执行时间中读到的那样，LD4 真的比 LDP 的两倍快吗？对于 STP 和 ST4，当然也可以提出同样的问题。也许这里有人已经对这个主题进行了基准测试。

（我什至正确解释时间吗？）

归档时间：	5 年，7 月前
查看次数：	976 次
最近记录：	5 年，6 月前

性能监控:Ganglia与Graphite 24

在Perl中,为什么绑定数组这么慢？ 8

Python的difflib中的SequenceMatcher是否可以提供更有效的方法来计算Levenshtein距离？ 7

车顶线模型:计算操作强度 7

ARM 是否有类似于 x86 上的 VESA/VGA 文本模式控制台的机制？ 5

在C++ SIMD中将signed short转换为float 4

MIPS 流水线阶段 - 当指令不需要阶段（例如 ALU 指令的 MEM）时会发生什么？ 3

在程序集中创建和使用 PE 文件的部分 (NASM) 2

学习装配时的指令错误 0

如何避免在皮质 M4 上浮动的未对齐访问异常 0

Python有三元条件运算符吗？ 5591

如何将空目录添加到Git存储库？ 4039

适用于Android UserManager.isUserAGoat()的用例？ 3506

HTML 5:是,<br>还是<br />？ 1952

什么是JavaBean？ 1677

使用其名称(字符串)调用模块的函数 1580

lodash和下划线之间的差异 1566

如何在Git中有选择地合并或选择来自另一个分支的更改？ 1374

关闭特定行的eslint规则 1214

visibility:hidden和display:none之间有什么区别？ 1121