CUDA - 通过PCI-E传输速度有多慢?

Mar*_* A. 4 cuda nvidia pci-e

如果我将一个字节从CUDA内核传输到PCI-E到主机(零拷贝存储器),那么与传输200兆字节的东西相比,它有多慢?

我想知道的是,因为我知道通过PCI-E传输CUDA内核的速度很慢,是:如果我只传输一个字节或大量数据,它会改变什么吗?或者也许由于内存传输是在"批量"中执行的,因此传输单个字节非常昂贵且无法传输200 MB?

kan*_*yin 7

希望这张照片解释一切.数据由CUDA样本中的bandwidthTest生成.硬件环境为PCI-E v2.0,Tesla M2090和2x Xeon E5-2609.请注意两个轴都是对数刻度.

鉴于此数字,我们可以看到启动传输请求的开销需要一个恒定的时间.对数据的回归分析给出了H2D的估计开销时间为4.9us,D2H为3.3us,D2D为3.0us.

在此输入图像描述