SP (流式多处理器):CUDA设备上执行指令的处理单元。

SM (流式多处理器簇):一个包含多个SP的集群,负责执行线程块。

线程:CUDA程序中最小的可执行单元,由一个内核函数实例化。

线程块:一组线程,在SM上并行执行。

网格:一组线程块,在所有SM上执行。

Warp:线程块中的32个连续线程组成的子组,在SM上一起执行指令。