CUDA中一个block内thread的具体执行情况是怎样的

2025-04-25 04:29:59
推荐回答(1个)
回答1:

不同版本的硬件会有区别。大体上实际执行的单位是Warp,如果有空闲的SP同时有可以执行的Warp(Warp的下一条指令满足启动条件,比如输入数据已经准备好等等),SM就会把这个Warp的下一条指令提交给SP。然后就这么执行到所有Warp都结束。
最新Volta架构略有不同,Warp和SP是绑定的,一个Warp总在固定的SP上执行。