现代 CPU 与 GPU 可以完成多少级流水线?

Cel*_*tas 6 cpu assembly gpu cpu-architecture

我在这些幻灯片中注意到GPU 通常比 CPU 具有更深的流水线。

GPU 具有更深的管道(几千个阶段,而 CPU 则有 10-20 个阶段)

我想找到更多的数字,但尝试谷歌搜索,但没有找到任何数字。我注意到这篇维基百科文章指出 Pentium 4 prescott 是深度流水线的。

定性地说,流水线怎么可能有3级以上呢?考虑到获取/解码/执行周期,这只是三件事?是否有多个功能单元,例如有超过 1 个解码器,因此一次可以解码超过 1 条指令?记忆中怎么能同时有超过一件东西是红色的呢?

请记住在您的答案中包含有关管道级别的数字。

waT*_*eim 1

从内存中获取数据需要比一个时钟周期更长的时间,否则报告假设从 core 进行访问

例如,NVIDIA CUDA (Tesla) GPU 数据是使用 32 个线程(称为 warp)进行处理,您将看到

当 warp 中的线程发出设备内存操作时,由于内存延迟较长,该指令将花费很长的时间,可能需要数百个时钟周期。

因此,如果内存获取需要数百个周期,那么流水线操作可以使处理器忙于执行。