为什么不能同时拥有高指令周期和高时钟速度？

dob*_*bus 37 cpu process computer-architecture

由于 PC 的 INTEL 8086 处理器和 Apple 的 Rockwell 6502 处理器之间的差异，Megahertz Myth 成为一种促销策略。8086 的运行频率为 4.77MHz，而 6502 的运行频率为 1MHz。然而，6502 上的指令需要更少的周期；事实上，它的运行速度比 8086 快得多。 为什么有些指令需要更少的周期？为什么6502需要更少周期的指令不能与8086的快速循环处理器结合？

维基百科关于每周期指令（IPC）的文章说

控制 IPC
的因素可以通过高 IPC 和低时钟速度实现给定的每秒指令水平……或者通过低 IPC 和高时钟速度实现。

为什么不能同时拥有高指令周期和高时钟速度？

也许这与时钟周期是什么有关？维基百科提到电路同步？不确定那是什么意思。

或者这可能与管道的工作方式有关？我不确定为什么短管道中的指令与长管道中的指令不同。

任何见解都会很棒！只是想了解神话背后的架构。谢谢！

参考：

每个周期的指令与增加的周期数

http://en.wikipedia.org/wiki/Instructions_per_cycle

http://en.wikipedia.org/wiki/Clock_cycle

tl;博士

较短的流水线意味着更快的时钟速度，但可能会降低吞吐量。另外，请参阅底部的答案 #2 和 3（我保证它们很短）。

更长的版本：

这里有几件事情需要考虑：

并非所有指令都需要相同的时间
并非所有指令都依赖于立即执行的操作（甚至十个或二十个）返回的指令

一个非常简化的管道（现代英特尔芯片中发生的事情非常复杂）有几个阶段：

获取 -> 解码 -> 内存访问 -> 执行 -> 回写 -> 程序计数器更新

在每个 -> 都会产生时间成本。此外，每一个滴答声（时钟周期），一切都从一个阶段移动到下一个阶段，所以你最慢的阶段变成了所有阶段的速度（让它们的长度尽可能相似确实是值得的）。

假设您有 5 条指令，并且您想执行它们（图片来自维基百科，此处未完成 PC 更新）。它看起来像这样：

在此处输入图片说明

尽管每条指令需要 5 个时钟周期才能完成，但每个周期都会有一条完成的指令从流水线中出来。如果每个阶段花费的时间是 40 ns，中间位花费 15 ns（使用我上面的六阶段流水线），则需要 40 * 6 + 5 * 15 = 315 ns 才能输出第一条指令。

相比之下，如果我要完全消除管道（但保持其他所有内容相同），则只需 240 ns 即可输出第一条指令。（这种获取“第一条”指令的速度差异称为延迟。它通常不如吞吐量重要，吞吐量是每秒的指令数）。

但真正不同的是，在流水线示例中，我每 60 ns 完成一个新指令（在第一个指令之后）。在非流水线中，每次需要 240。这表明管道擅长提高吞吐量。

更进一步，似乎在内存访问阶段，我将需要一个加法单元（进行地址计算）。这意味着如果有一条指令不使用该循环的 mem 阶段，那么我可以做另一个添加。因此，我可以一次在一个处理器上执行两个执行阶段（其中一个处于内存访问阶段）（调度是一场噩梦，但我们不要去那里。此外，PC 更新阶段还需要一个附加单元跳跃的情况下，所以我可以在一个滴答声中完成三个加法执行状态）。通过拥有流水线，可以设计成两条（或更多）指令可以使用不同的阶段（或跳跃阶段等），从而节省宝贵的时间。

请注意，为了做到这一点，处理器做了很多“魔术”（乱序执行、分支预测等等），但这允许多条指令比没有流水线的情况更快（注意流水线太long 非常难以管理，并且仅通过在阶段之间等待会产生更高的成本）。另一面是，如果流水线太长，可能会获得疯狂的时钟速度，但会失去许多原始优势（可以在多个地方存在相同类型的逻辑，并且可以同时使用））。

答案#2：

SIMD（单指令多数据）处理器（与大多数 GPU 一样）在许多位信息上做了大量工作，但它们需要更长的时间来完成。读取所有值需要更长的时间（意味着更慢的时钟，尽管在某种程度上通过更宽的总线来偏移）但您可以一次完成更多的指令（每个周期更有效的指令）。

答案 #3：

因为您可以“欺骗”并人为地延长周期数，以便您每个周期可以执行两条指令（只需将时钟速度减半）。也可以每两个刻度只做一些事情而不是一个（提供 2 倍的时钟速度，但不改变指令一秒）。

*每个时钟周期完成一个流水线阶段*；整个流水线每时钟前进一步——在底部获取新指令，在顶部“发出”完成的指令。因此，Pentium4 的想法是让非常小的步骤快速执行，提供高时钟，但因此需要很长的管道。流水线（所有处理器都使用一个）的线索是您随时有几条正在进行的指令正在处理。长管道意味着许多指令正在进行中 - 如果分支预测失败，则您必须刷新整个管道。 (4认同)
短管道意味着*慢*时钟速度！Pentium 4 由于流水线长而具有高时钟，这里是 WP：“NetBurst 与 P6（Pentium III、II 等）的不同之处在于具有非常深的指令流水线以实现非常高的时钟速度”。关键是你在每个阶段做很少的事情来实现高速。然而，事实证明这行不通，英特尔因此失去了对 AMD 的巨大动力。他们回到 Pentium 3 架构，并提出了“Core”。 (3认同)
同样对于答案#1，当您说“如果有一条指令不使用该循环的 mem 阶段，那么我可以再进行一次添加”，这是错误的。乱序执行应用于指令级别，而不是微操作级别。如果一条指令确实需要在管道中执行两次，这将导致[管道中的气泡](http://en.wikipedia.org/wiki/Bubble_%28computing%29)。最后，x86 架构有一个单独的 ALU 来在内存读/写期间即时计算内存地址（允许“[EBX+ECX*4+100]”风格寻址）。 (2认同)

我过于简单化了这一点，但要记住的重要一点是，这些术语是将苹果与橙子进行比较。“周期”不是所有处理器都相同的单一统一度量单位，就像“秒”是时间的统一度量。相反，一个循环代表了某个工作单元，它的定义有些随意，但受管道设计的复杂性和物理的限制。

在许多情况下，在一个周期内完成大量工作可以让您清理整个管道。如果成功，这意味着您的下一个周期将无法优化，因为您必须再次填充管道，这可能需要一些时间。

我可以设计一个非常简单的处理器，每个周期处理一个 RISC 指令的一个阶段，如果这是我的 CPU 的基础，我可能会实现非常非常高的每秒周期数，因为构成“a循环”。

细节涉及很多我不太了解的物理和电气工程，但请记住，仅通过向处理器添加输入电压并希望获得最佳效果并不能实现时钟速率。至少，热剖面是另一个必要的关注点。

这是一个非常简单（可能过于简单化）的解释：假设您有一项特定的工作要做，比如将两个 32 位数字相加。你可以采取两种方法。您可以将其拆分为大量非常小的步骤，也可以将其拆分为少量的非常大的步骤。

例如，您可以只说“将两个数字相加”。现在你只有一步了。但该步骤有多个部分，需要更长的时间才能完成。所以你每个周期有很多指令——在这种情况下是一个。但是您的时钟速度不能很高，因为在那个周期中您有很多事情要做。

您也可以说，“将第一个数字取出到寄存器中。然后取出第二个数字。然后添加最低有效位。然后将第二个最低有效位与之前的进位相加。然后添加第三个最低有效位...... 。然后添加最高有效位。如果有进位，设置溢出标志。然后将结果写入内存。” 现在你有大量的步骤。但每一步都可能快得离谱。因此，每个周期的指令很少（在这种情况下为 1/36 左右）。但是您的时钟速度可能非常高，因为每个周期只有很少的工作要做。

为了同时拥有高指令周期和高时钟速度，您必须将复杂指令划分为极少数非常简单的步骤。但这无法完成，因为指令很复杂。

实际的具体权衡和周期数有很大不同，因为现代 CPU 是流水线式的并且指令重叠。但基本思想是正确的。

归档时间：	13 年，7 月前
查看次数：	12908 次
最近记录：	7 年，9 月前

每个周期的指令与增加的周期数 3

更多相关链接

如何在 Windows 中显示所有进程的完整命令行 29

有没有办法减少 Chrome 浏览器中 Gmail 标签的 CPU 使用率？ 13

如何告诉 Windows 始终以低优先级启动某些二进制文件？ 12

如何获取脚本生成的所有子进程的列表 11

CPU 在繁重工作负载下的安全工作温度是多少？ 8

知道我的笔记本电脑风扇是否在工作的方法 7

PWRCFG.EXE 命令行实用程序所做的更改存储在哪里？ 5

在旧电脑硬件上做一些侦探工作 5

我应该先升级哪个 - RAM 还是 CPU？ 3

热管的原理是什么？ 0

Windows A: 和 B: 驱动器的用途是什么？ 989

在 Linux 上查看 ZIP 存档中的文件列表 542

相当于 Linux `touch` 使用 PowerShell 创建一个空文件 238

如何在Linux中只找到某个目录下的可执行文件？ 194

Mac：3 显示器设置：我的桌面设置不断在显示器之间切换位置 150

通过 Cygwin 命令行升级和安装软件包？ 118

如何向 sox 添加 mp3 处理程序？ 118

TCP必须使用IP吗？ 115

从命令行重新启动 Windows 服务 107

如何在 Linux 中检查 U 盘的物理健康状况？ 106