函数不受主内存约束所需的复杂性是多少？

Question

函数不受主内存约束所需的复杂性是多少？

Mar*_*ayr 7 c c++ performance x86 assembly

我知道如果没有缓存数据,访问主内存的延迟很高.这个问题是关于吞吐量的.

在常规台式PC上永远不受主内存限制的函数所需的复杂性是多少？

我读到了带宽为25-30GB/s的现代RAM(DDR3 RAM,双通道模式).据我所知,现代英特尔处理器的单核可以使用现代SIMD指令集存储每条指令最多32字节.它最多可以运行4*10 ^ 9条指令.如此有效,它可以输出大约120GB/s.给定具有8个线程的处理器,作为最坏情况估计,最大输出量将是大约960GB/s.

处理器最多可以输出可写入RAM的数据的~36倍.是否可以安全地假设每个SIMD存储或加载超过36个周期运行非加载/存储操作的任何函数(或每个常规8个字节存储或加载超过9个周期)将永远不会受到主存储器的约束？由于某些原因,这个估计值是可以显着降低还是太低？

鉴于我有:

X = (x_1, x_2, ..., x_n) // dataset, large enough to make good use of caches
a(x), b(x), c(x, y), d(x) := c(a(x), b(x)) // functions that operate on elements
A(x) := (a(x_1), a(x_2), ..., a(x_n)) // functions that operate on data sets

Run Code Online (Sandbox Code Playgroud)

我正在寻找实施更好(或更糟)的准则