小编Sia*_*mak的帖子

我在 Tesla K40 和 Tesla K80 上的性能几乎相同

我开发了两个 CUDA 内核。一个是受内存限制的内核，另一个是受计算限制的内核。内核，首先在 Tesla K40 上进行了优化，我现在正在对 Tesla K40 和 Tesla K80 进行性能测试，以比较它们的性能结果。然而，我真的很困惑，因为我在两块板上获得了几乎相同的性能，而 K80 提供了几乎两倍宽的理论带宽和 DP 峰值性能。我还对每个块使用不同数量的线程进行了测试，但与 Tesla K40 相比，Tesla K80（大约 2%）没有任何明显的性能改进。

我使用以下标志编译代码：

在特斯拉 K40 上：

nvcc --cudart static --relocatable-device-code=false -gencode arch=compute_35,code=compute_35 -gencode arch=compute_35,code=sm_35 -link -o  "test"

Run Code Online (Sandbox Code Playgroud)

在特斯拉 K80 上：

nvcc --cudart static --relocatable-device-code=false -gencode arch=compute_37,code=compute_37 -gencode arch=compute_37,code=sm_37 -link -o  "test"

Run Code Online (Sandbox Code Playgroud)

从理论上讲，我应该在 Tesla K80 上获得更高的性能，但我不知道为什么这不起作用。

感谢您的任何回答或评论！

performance cuda gpu

Sia*_*mak

lucky-day

1
推荐指数

1
解决办法

1281
查看次数

标签统计

cuda ×1

gpu ×1

performance ×1

我在 Tesla K40 和 Tesla K80 上的性能几乎相同

标签 统计

小编Sia_mak的帖子

标签统计