GPU系统拆解-00-导读:从架构认知到推理系统的学习路线

阅读这篇后应获得什么

  • 看清这套文章不是“显卡参数科普”,而是围绕 AI Infra、CUDA、推理系统和工程落地组织的一条 GPU 学习主线。
  • 知道应该先建立哪些硬件认知,再进入执行模型、访存、编译链、算子热点、profiling、多卡与工程接入。
  • 能根据自己的目标选择阅读顺序,而不是机械按顺序从头看到尾。

这个系列解决什么问题

一句话概括:先建立“GPU 为什么会成为 AI 时代主力硬件”的全景认知,再把 CUDA 执行模型、memory hierarchy、编译链、Tensor Core、profiling、多卡通信和 LLM 推理系统主线串成一套稳定的工程判断。

它不是只讲 CUDA 语法,也不是只讲显卡型号对比,而是回答这些更关键的问题:为什么同样是 GPU,4090 和 Hopper / MI300 在系统价值上差别那么大;为什么 CUDA 写法会随架构演进发生变化;为什么很多优化问题最后都落在访存、调度、通信和资源权衡上;为什么 LLM 推理系统必须和 GPU 物理约束一起看。

与站内其他文章的关系

文章 作用
CUDA实践-00-系列导读与学习路线 如果你想把 GPU 理解继续推进到手写 kernel 和常见优化模式,这个系列是最直接的延伸。
PyTorch推理工程-00-系列导读与学习路线 如果你更关注模型推理工程、框架执行与部署,这条线能和本系列后半段自然衔接。
Triton-导读-从算子开发到模型服务 适合把 GPU 算子视角和模型服务视角连起来,尤其适合读完 Tensor Core、profiling 和 extension 相关篇目后继续深入。
vLLM系统拆解-00-导读:从架构、调度到面试表达的学习路线 读到 LLM 推理、多卡扩展和面试表达部分时,可以和这套文章互相参照。
PMPP-大规模并行处理器程序设计:导读 更偏体系化的并行计算教材视角,适合补齐基础概念和经典并行模式。
CUDA C编程权威指南:导读 更偏 CUDA 官方编程模型与内存、并发等底层机制的系统化梳理。

系列结构

  • 0104:先建图。理解 GPU 在 AI Infra 里的位置、消费级与数据中心架构差异,以及架构演进如何改变写法。
  • 0507:进入底层主干。把 CUDA 抽象、memory hierarchy 和 PTX / SASS / 编译链串起来。
  • 0809:看热点计算与性能方法。把 Tensor Core、GEMM、FlashAttention 和 profiling 诊断闭环放在一起看。
  • 1014:从理解走向表达和工程。包括面试表达、高频 kernel 设计、LLM 推理 GPU 主线、多卡通信以及 PyTorch 到 CUDA Extension 的接入链路。

路线图

1
2
3
4
5
6
00 导读
-> 01 架构地图 -> 02 RTX 4090 / Ada -> 03 Ampere / Hopper -> 04 数据中心架构
-> 05 CUDA 执行映射 -> 06 内存层次 -> 07 PTX / SASS / 编译链
-> 08 Tensor Core / GEMM / FlashAttention -> 09 Profiling / 性能定位
-> 10 面试表达 -> 11 高频 Kernel -> 12 LLM 推理 GPU 主线
-> 13 多 GPU / 通信 -> 14 PyTorch 到 CUDA Extension

篇目索引

编号 文章 关键词
01 GPU系统拆解-01-架构地图:先建立面向 AI Infra 的 GPU 全景认知 GPU、GPU架构
02 GPU系统拆解-02-从 RTX 4090 出发:Ada 架构如何影响 CUDA 与推理 GPU、RTX 4090
03 GPU系统拆解-03-从 Ampere 到 Hopper:现代 CUDA 写法为什么变了 GPU、CUDA
04 GPU系统拆解-04-数据中心架构:为什么大厂更偏好 Hopper、Blackwell 与 MI300 GPU、GPU架构
05 GPU系统拆解-05-CUDA 执行映射:抽象模型如何落到真实硬件 GPU、CUDA
06 GPU系统拆解-06-内存层次与访存主线:GPU 性能为什么常常卡在数据 GPU、CUDA
07 GPU系统拆解-07-PTX、SASS 与编译链:一段 CUDA 代码如何变成指令 GPU、CUDA
08 GPU系统拆解-08-Tensor Core、GEMM 与 FlashAttention:AI 计算热点为什么这样组织 GPU、CUDA
09 GPU系统拆解-09-Profiling 与性能定位:先找到瓶颈,再谈优化 GPU、性能剖析
10 GPU系统拆解-10-面试表达与系统思维:怎么把 GPU 理解讲成工程判断 GPU、面试
11 GPU系统拆解-11-高频 Kernel 设计:从自然并行到资源权衡 GPU、CUDA
12 GPU系统拆解-12-LLM 推理的 GPU 主线:Prefill、Decode、KV Cache 与系统约束 GPU、大模型推理
13 GPU系统拆解-13-多 GPU 与通信:并行策略、拓扑与扩展代价 GPU、多GPU
14 GPU系统拆解-14-从 PyTorch 到 CUDA Extension:把算子真正接入工程 GPU、PyTorch

阅读顺序建议

  • 想先建立 GPU 全景认知:重点读 01020304
  • 想尽快进入 CUDA 与性能优化主线:重点读 050607080911
  • 想把 GPU 理解连接到 LLM 推理系统:重点读 0809121314,并配合 vLLM 系列一起看。
  • 想准备 AI Infra / CUDA / 推理相关面试:重点读 0910121314

起始篇

建议从 GPU系统拆解-01-架构地图:先建立面向 AI Infra 的 GPU 全景认知 开始。


系列导航