如果我将一个字节从CUDA内核传输到PCI-E到主机(零拷贝存储器),那么与传输200兆字节的东西相比,它有多慢?
我想知道的是,因为我知道通过PCI-E传输CUDA内核的速度很慢,是:如果我只传输一个字节或大量数据,它会改变什么吗?或者也许由于内存传输是在"批量"中执行的,因此传输单个字节非常昂贵且无法传输200 MB?
cuda nvidia pci-e
cuda ×1
nvidia ×1
pci-e ×1