CUDA系统拆解-00-导读:从编程模型到 AI 推理系统的学习路线
CUDA系统拆解-00-导读:从编程模型到 AI 推理系统的学习路线
阅读这篇后应获得什么
- 知道这套文章不是 CUDA API 手册,而是一条从编程模型、执行机制、访存、调优、面试表达一路连到 AI 推理系统的学习路径。
- 能分清它和站内
GPU系统拆解、CUDA实践、Triton、vLLM这些系列的边界和连接关系。 - 能按目标选阅读顺序:偏基础原理、偏调优、偏高性能实现、偏推理系统或偏面试表达都能找到入口。
这个系列解决什么问题
一句话概括:先把 CUDA 当作一套“让并行硬件可被工程化地利用起来”的系统抽象来理解,再把执行模型、memory hierarchy、同步、profiling、高性能实现和推理系统连接成一套稳定的工程判断。
它不重复解释所有 GPU 架构背景,也不直接进入一堆 kernel 练习题,而是解决这些更关键的问题:CUDA 为什么这样设计;代码是怎么被组织和执行的;为什么性能问题大多落在访存、资源占用和通信上;为什么真正高价值的 CUDA 能力最后会连接到 Triton、CUTLASS、vLLM、TensorRT-LLM 这类系统和框架上。
与站内其他文章的关系
| 文章 | 作用 |
|---|---|
| GPU系统拆解-00-导读:从架构认知到推理系统的学习路线 | 先补 GPU 硬件认知、数据中心卡和推理系统背景,再回来看 CUDA 为什么这样抽象会更顺。 |
| CUDA实践-00-系列导读与学习路线 | 这套更偏手写 kernel 与实战模式,适合读完本系列后把概念落到代码优化。 |
| Triton-导读-从算子开发到模型服务 | 适合在读到 Tensor Core、CUTLASS、FlashAttention 和高性能实现思路后继续深入。 |
| vLLM系统拆解-00-导读:从架构、调度到面试表达的学习路线 | 适合在读到 Continuous Batching、PagedAttention、多 GPU 扩展和面试表达后继续连接推理系统。 |
| PyTorch推理工程-00-系列导读与学习路线 | 适合把 CUDA 视角继续接到框架执行、导出、服务化与推理工程。 |
| CUDA C编程权威指南:导读 | 更偏官方编程模型和内存、并发等底层知识的系统性整理。 |
系列结构
01到04:先建编程模型。理解 CUDA 的设计动机、最小程序闭环、线程组织和真实执行机制。05到10:进入性能主干。把 memory hierarchy、共享内存、同步、occupancy、stream overlap 和 profiling 串起来。11到16:从模式到高性能实现。先看经典算子模式,再进入 PTX、Tensor Core、CUTLASS、Triton、cuBLAS 与 FlashAttention。12、13、17、18:把 CUDA 能力连接到面试表达、AI 推理系统和多 GPU 扩展能力。
路线图
1 | 00 导读 |
篇目索引
阅读顺序建议
- 想先把 CUDA 原理讲明白:重点读
01、02、03、04、05、07。 - 想尽快进入调优主线:重点读
05、06、08、09、10、11。 - 想理解高性能实现与框架关系:重点读
13、14、15、16。 - 想把 CUDA 连接到 AI 推理系统与面试表达:重点读
12、13、17、18。
起始篇
建议从 CUDA系统拆解-01-CUDA为什么存在:从计算负载到编程模型 开始。
系列导航
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Smarter's blog!
评论

