CUDA核心,流式多处理器和块和线程的CUDA模型之间有什么关系?
什么被映射到什么和什么是并行化以及如何?什么是更有效,最大化块数或线程数?
我目前的理解是每个多处理器有8个cuda核心.并且每个cuda核心都能够一次执行一个cuda块.并且该块中的所有线程在该特定核心中串行执行.
它是否正确?
cuda nvidia
cuda ×1
nvidia ×1