您能解释一下在CUDA编程中使用"L1和L2"缓存或"仅L2"缓存之间的区别吗?在时间执行中我应该期待什么?我什么时候能期望更小的gpu时间?当我启用L1和L2缓存或只启用L2?谢谢
cuda coalescing
您能否解释一下在 CUDA 编程中使用“16 KB 共享内存 + 48K L1 缓存”或“48 KB 共享内存 + 16 KB L1 缓存”之间的区别?在时间执行中我应该期待什么?我什么时候可以减少 GPU 运行时间?
caching cuda gpu-shared-memory
cuda ×2
caching ×1
coalescing ×1
gpu-shared-memory ×1