GPU并行计算- 基础知识

逻辑与物理层次的区别:
- 逻辑层次:
  - 当我们设计CUDA程序时，我们首先需要定义线程的组织结构，包括线程块（blocks）和线程网格（grids）。
  - 这种组织方式给予我们逻辑上的控制权，方便我们根据算法的需求进行设计。
- 物理层次:
  - 尽管我们可以逻辑上定义数以万计的线程，但这并不意味着它们都会在同一时间物理上并行执行。
  - 实际的并行执行数量由GPU的硬件资源决定，尤其是流式多处理器（SM）的数量及其配置。
流式多处理器（SM）及其重要性:
- SM是GPU内部的核心组件，负责执行我们的CUDA代码。
- 每个SM都包含以下资源：
  - CUDA核心: 执行算术和逻辑操作。
  - 共享内存: 快速访问的内存区域，可被同一SM内的线程共享。
  - 寄存器: 用于存储线程的局部变量。
- 当一个CUDA内核（函数）被调用时，其线程块会被分配到SM上执行。一个SM可以同时容纳多个线程块，但每个线程块只能在一个SM上运行。
SIMT架构与线程束（Warp）的关系:
- SIMT架构:
  - SIMT代表“单指令多线程”，意味着多个线程可以并行执行，但在每个特定的时刻，它们都在执行相同的指令。
- 线程束（Warp）:
  - 一个线程束通常由32个线程组成，这些线程会并行执行相同的指令序列。
  - 尽管所有线程都从同一个指令地址开始执行，但由于分支或条件语句，它们可能走不同的执行路径。这种行为称为线程分叉，可能导致效率降低。
资源限制与并发:
- GPU资源，如共享内存、寄存器和CUDA核心，都是有限的。
- SM上能够并发执行的线程块和线程束数量取决于这些资源的可用性和分配。
- 如果一个线程块需要更多的共享内存或寄存器，那么SM可能会同时执行较少的线程块。
性能与配置的重要性:
- CUDA程序的性能很大程度上取决于grid和block的配置。
- 为了获得最佳性能，我们需要根据算法的需求和GPU的硬件特性来调整这些配置。
- 通常建议线程块的大小为32的倍数，这是为了确保最大化线程束的利用，从而提高效率。

相关阅读:
Vue权限控制
轻量级RPC分布式网络通信框架设计——日志模块解析
阿里云易立：以增效促降本，容器服务全面进入智能化时代
【Python】多种方法实现打印系统菜单
Nginx 平滑升级方案 1.21.0升级至1.23.2
基于springboot实现大学生社团活动平台项目【项目源码+论文说明】
力扣--有效的括号
使用ServiceSelf解决.NET应用程序做服务的难题
【Qt】常用控件或属性(1)
Linux UWB Stack实现——MCPS接口

原文地址：https://blog.csdn.net/weixin_43844521/article/details/133906904