GPU系统拆解-00-导读:从架构认知到推理系统的学习路线
GPU系统拆解-00-导读:从架构认知到推理系统的学习路线
阅读这篇后应获得什么
- 看清这套文章不是“显卡参数科普”,而是围绕 AI Infra、CUDA、推理系统和工程落地组织的一条 GPU 学习主线。
- 知道应该先建立哪些硬件认知,再进入执行模型、访存、编译链、算子热点、profiling、多卡与工程接入。
- 能根据自己的目标选择阅读顺序,而不是机械按顺序从头看到尾。
这个系列解决什么问题
一句话概括:先建立“GPU 为什么会成为 AI 时代主力硬件”的全景认知,再把 CUDA 执行模型、memory hierarchy、编译链、Tensor Core、profiling、多卡通信和 LLM 推理系统主线串成一套稳定的工程判断。
它不是只讲 CUDA 语法,也不是只讲显卡型号对比,而是回答这些更关键的问题:为什么同样是 GPU,4090 和 Hopper / MI300 在系统价值上差别那么大;为什么 CUDA 写法会随架构演进发生变化;为什么很多优化问题最后都落在访存、调度、通信和资源权衡上;为什么 LLM 推理系统必须和 GPU 物理约束一起看。
与站内其他文章的关系
| 文章 | 作用 |
|---|---|
| CUDA实践-00-系列导读与学习路线 | 如果你想把 GPU 理解继续推进到手写 kernel 和常见优化模式,这个系列是最直接的延伸。 |
| PyTorch推理工程-00-系列导读与学习路线 | 如果你更关注模型推理工程、框架执行与部署,这条线能和本系列后半段自然衔接。 |
| Triton-导读-从算子开发到模型服务 | 适合把 GPU 算子视角和模型服务视角连起来,尤其适合读完 Tensor Core、profiling 和 extension 相关篇目后继续深入。 |
| vLLM系统拆解-00-导读:从架构、调度到面试表达的学习路线 | 读到 LLM 推理、多卡扩展和面试表达部分时,可以和这套文章互相参照。 |
| PMPP-大规模并行处理器程序设计:导读 | 更偏体系化的并行计算教材视角,适合补齐基础概念和经典并行模式。 |
| CUDA C编程权威指南:导读 | 更偏 CUDA 官方编程模型与内存、并发等底层机制的系统化梳理。 |
系列结构
01到04:先建图。理解 GPU 在 AI Infra 里的位置、消费级与数据中心架构差异,以及架构演进如何改变写法。05到07:进入底层主干。把 CUDA 抽象、memory hierarchy 和 PTX / SASS / 编译链串起来。08到09:看热点计算与性能方法。把 Tensor Core、GEMM、FlashAttention 和 profiling 诊断闭环放在一起看。10到14:从理解走向表达和工程。包括面试表达、高频 kernel 设计、LLM 推理 GPU 主线、多卡通信以及 PyTorch 到 CUDA Extension 的接入链路。
路线图
1 | 00 导读 |
篇目索引
| 编号 | 文章 | 关键词 |
|---|---|---|
| 01 | GPU系统拆解-01-架构地图:先建立面向 AI Infra 的 GPU 全景认知 | GPU、GPU架构 |
| 02 | GPU系统拆解-02-从 RTX 4090 出发:Ada 架构如何影响 CUDA 与推理 | GPU、RTX 4090 |
| 03 | GPU系统拆解-03-从 Ampere 到 Hopper:现代 CUDA 写法为什么变了 | GPU、CUDA |
| 04 | GPU系统拆解-04-数据中心架构:为什么大厂更偏好 Hopper、Blackwell 与 MI300 | GPU、GPU架构 |
| 05 | GPU系统拆解-05-CUDA 执行映射:抽象模型如何落到真实硬件 | GPU、CUDA |
| 06 | GPU系统拆解-06-内存层次与访存主线:GPU 性能为什么常常卡在数据 | GPU、CUDA |
| 07 | GPU系统拆解-07-PTX、SASS 与编译链:一段 CUDA 代码如何变成指令 | GPU、CUDA |
| 08 | GPU系统拆解-08-Tensor Core、GEMM 与 FlashAttention:AI 计算热点为什么这样组织 | GPU、CUDA |
| 09 | GPU系统拆解-09-Profiling 与性能定位:先找到瓶颈,再谈优化 | GPU、性能剖析 |
| 10 | GPU系统拆解-10-面试表达与系统思维:怎么把 GPU 理解讲成工程判断 | GPU、面试 |
| 11 | GPU系统拆解-11-高频 Kernel 设计:从自然并行到资源权衡 | GPU、CUDA |
| 12 | GPU系统拆解-12-LLM 推理的 GPU 主线:Prefill、Decode、KV Cache 与系统约束 | GPU、大模型推理 |
| 13 | GPU系统拆解-13-多 GPU 与通信:并行策略、拓扑与扩展代价 | GPU、多GPU |
| 14 | GPU系统拆解-14-从 PyTorch 到 CUDA Extension:把算子真正接入工程 | GPU、PyTorch |
阅读顺序建议
- 想先建立 GPU 全景认知:重点读
01、02、03、04。 - 想尽快进入 CUDA 与性能优化主线:重点读
05、06、07、08、09、11。 - 想把 GPU 理解连接到 LLM 推理系统:重点读
08、09、12、13、14,并配合 vLLM 系列一起看。 - 想准备 AI Infra / CUDA / 推理相关面试:重点读
09、10、12、13、14。
起始篇
建议从 GPU系统拆解-01-架构地图:先建立面向 AI Infra 的 GPU 全景认知 开始。
系列导航
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Smarter's blog!
评论


