我想将线程ping通到两个CPU插槽中的所有内核,并在线程之间写入通信而无需回写DRAM。
如果仅在一个插槽中使用内核,则写回高速缓存对我的吞吐量就可以了,但是对于两个插槽,我想知道是否有更快的速度,例如片上网络或Intel QuickPath Interconnect?
此外,是否有任何简单的方法可以利用这种功能而无需直接编写汇编代码?
参考:https : //software.intel.com/zh-cn/forums/intel-moderncode-for-parallel-architectures/topic/700477