您能解释一下在CUDA编程中使用"L1和L2"缓存或"仅L2"缓存之间的区别吗?在时间执行中我应该期待什么?我什么时候能期望更小的gpu时间?当我启用L1和L2缓存或只启用L2?谢谢
cuda coalescing
coalescing ×1
cuda ×1