小编mda*_*hti的帖子

在Tegra TK1上使用malloc()与cudaHostAlloc()分配的数据的CPU内存访问延迟

我正在执行一个简单的测试,它比较了使用malloc()分配的数据的访问延迟和使用cudaHostAlloc()从主机分配的数据(cpu正在执行访问).我注意到访问使用cudaHostAlloc()分配的数据比访问Jetson Tk1上的malloc()分配的数据要慢得多.

这不是离散GPU的情况,似乎只适用于TK1.经过一些调查,我发现用cudaHostAlloc()分配的数据是内存映射(mmap)到进程地址空间的/ dev/nvmap区域.对于映射在进程堆上的普通malloc数据,情况并非如此.我知道这个映射可能是允许GPU访问数据所必需的,因为必须从主机和设备都可以看到cudaHostAlloc的数据.

我的问题如下:从主机访问cudaHostAlloc数据的开销来自哪里？数据映射到CPU缓存上的/ dev/nvmap是否未缓存？

linux cuda nvidia tegra

mda*_*hti

lucky-day

5
推荐指数

1
解决办法

1032
查看次数