GPU系统拆解-00-导读：从架构认知到推理系统的学习路线

阅读这篇后应获得什么

看清这套文章不是“显卡参数科普”，而是围绕 AI Infra、CUDA、推理系统和工程落地组织的一条 GPU 学习主线。
知道应该先建立哪些硬件认知，再进入执行模型、访存、编译链、算子热点、profiling、多卡与工程接入。
能根据自己的目标选择阅读顺序，而不是机械按顺序从头看到尾。

这个系列解决什么问题

一句话概括：先建立“GPU 为什么会成为 AI 时代主力硬件”的全景认知，再把 CUDA 执行模型、memory hierarchy、编译链、Tensor Core、profiling、多卡通信和 LLM 推理系统主线串成一套稳定的工程判断。

它不是只讲 CUDA 语法，也不是只讲显卡型号对比，而是回答这些更关键的问题：为什么同样是 GPU，4090 和 Hopper / MI300 在系统价值上差别那么大；为什么 CUDA 写法会随架构演进发生变化；为什么很多优化问题最后都落在访存、调度、通信和资源权衡上；为什么 LLM 推理系统必须和 GPU 物理约束一起看。

与站内其他文章的关系

文章	作用
CUDA实践-00-系列导读与学习路线	如果你想把 GPU 理解继续推进到手写 kernel 和常见优化模式，这个系列是最直接的延伸。
PyTorch推理工程-00-系列导读与学习路线	如果你更关注模型推理工程、框架执行与部署，这条线能和本系列后半段自然衔接。
Triton-导读-从算子开发到模型服务	适合把 GPU 算子视角和模型服务视角连起来，尤其适合读完 Tensor Core、profiling 和 extension 相关篇目后继续深入。
vLLM系统拆解-00-导读：从架构、调度到面试表达的学习路线	读到 LLM 推理、多卡扩展和面试表达部分时，可以和这套文章互相参照。
PMPP-大规模并行处理器程序设计：导读	更偏体系化的并行计算教材视角，适合补齐基础概念和经典并行模式。
CUDA C编程权威指南：导读	更偏 CUDA 官方编程模型与内存、并发等底层机制的系统化梳理。

系列结构

01 到 04：先建图。理解 GPU 在 AI Infra 里的位置、消费级与数据中心架构差异，以及架构演进如何改变写法。
05 到 07：进入底层主干。把 CUDA 抽象、memory hierarchy 和 PTX / SASS / 编译链串起来。
08 到 09：看热点计算与性能方法。把 Tensor Core、GEMM、FlashAttention 和 profiling 诊断闭环放在一起看。
10 到 14：从理解走向表达和工程。包括面试表达、高频 kernel 设计、LLM 推理 GPU 主线、多卡通信以及 PyTorch 到 CUDA Extension 的接入链路。

路线图

00 导读
  -> 01 架构地图 -> 02 RTX 4090 / Ada -> 03 Ampere / Hopper -> 04 数据中心架构
  -> 05 CUDA 执行映射 -> 06 内存层次 -> 07 PTX / SASS / 编译链
  -> 08 Tensor Core / GEMM / FlashAttention -> 09 Profiling / 性能定位
  -> 10 面试表达 -> 11 高频 Kernel -> 12 LLM 推理 GPU 主线
  -> 13 多 GPU / 通信 -> 14 PyTorch 到 CUDA Extension

篇目索引

编号	文章	关键词
01	GPU系统拆解-01-架构地图：先建立面向 AI Infra 的 GPU 全景认知	GPU、GPU架构
02	GPU系统拆解-02-从 RTX 4090 出发：Ada 架构如何影响 CUDA 与推理	GPU、RTX 4090
03	GPU系统拆解-03-从 Ampere 到 Hopper：现代 CUDA 写法为什么变了	GPU、CUDA
04	GPU系统拆解-04-数据中心架构：为什么大厂更偏好 Hopper、Blackwell 与 MI300	GPU、GPU架构
05	GPU系统拆解-05-CUDA 执行映射：抽象模型如何落到真实硬件	GPU、CUDA
06	GPU系统拆解-06-内存层次与访存主线：GPU 性能为什么常常卡在数据	GPU、CUDA
07	GPU系统拆解-07-PTX、SASS 与编译链：一段 CUDA 代码如何变成指令	GPU、CUDA
08	GPU系统拆解-08-Tensor Core、GEMM 与 FlashAttention：AI 计算热点为什么这样组织	GPU、CUDA
09	GPU系统拆解-09-Profiling 与性能定位：先找到瓶颈，再谈优化	GPU、性能剖析
10	GPU系统拆解-10-面试表达与系统思维：怎么把 GPU 理解讲成工程判断	GPU、面试
11	GPU系统拆解-11-高频 Kernel 设计：从自然并行到资源权衡	GPU、CUDA
12	GPU系统拆解-12-LLM 推理的 GPU 主线：Prefill、Decode、KV Cache 与系统约束	GPU、大模型推理
13	GPU系统拆解-13-多 GPU 与通信：并行策略、拓扑与扩展代价	GPU、多GPU
14	GPU系统拆解-14-从 PyTorch 到 CUDA Extension：把算子真正接入工程	GPU、PyTorch