我目前正在尝试将 Jetson TX1 与 jetson NANO 进行基准测试,根据https://elinux.org/Jetson,它们都具有 maxwell 架构,其中 NANO 有 128 个 cuda 内核,TX1 有 256 个 cuda 内核。这意味着通常 Jetson NANO 的性能是 TX1 的一半。
为了测试这一点,我创建了一个单(浮点)运算乘法内核,如下所示:
__global__ void matrixMultiply(float* mat1, float* mat2, int nx, int ny)
{
unsigned int ix = threadIdx.x + blockDim.x*blockIdx.x;
unsigned int iy = threadIdx.y + blockDim.y*blockIdx.y;
int idx = iy*nx + ix;
mat1[idx] = mat1[idx]*mat2[idx] ;
}
Run Code Online (Sandbox Code Playgroud)
测试: TX1 = 130 ms 和 Jetson NANO = 150 ms 乘以 2“大小为 15000*15000 的浮点数组”。结果看起来很奇怪,就好像我没有使用 TX1 …