vLLM系统拆解-00-导读:从架构、调度到面试表达的学习路线
vLLM系统拆解-00-导读:从架构、调度到面试表达的学习路线
阅读本文后应能
- 看清这个系列到底在回答哪些问题:架构、调度、KV Cache、执行链、调优、分布式、框架对比和面试表达。
- 按自己的目标选择阅读顺序,而不是把 19 篇文章当成只能线性推进的一条路线。
- 明确它和站内 Transformer、vLLM 入门实践、推理全景文章的边界,减少重复阅读。
这个系列解决什么问题
一句话概括:先建立 LLM Serving 的物理图景,再把 vLLM 拆成“请求怎么进来、状态怎么推进、KV 怎么存、GPU 怎么跑、系统怎么调、架构怎么扩”六条主线。
这套文章不是 API 手册,也不是源码逐文件导读,而是围绕真实 AI Infra 问题组织:为什么在线推理需要 Scheduler、为什么 KV Cache 会变成核心资源、为什么 Prefix Caching 和 PagedAttention 必须放在同一张图里看、为什么部署调优最终落到 TTFT、ITL、显存预算和 workload 分布上。
与站内其他文章的关系
| 文章 | 作用 |
|---|---|
| AI Infra学习之旅-Transformer知识地图 | 先补 Attention、KV Cache、Prefill/Decode 这些概念从模型层是怎么来的。 |
| 现代大模型推理的核心技术全景 | 从更高一层看现代推理系统要解决的共性问题。 |
| AI-Infra学习之旅-第一个vLLM程序 | 如果还没跑过 vLLM,可以先用这篇建立最小使用体验。 |
| AI-Infra学习之旅-PagedAttention解析 | 想先抓住 vLLM 最著名的单点机制,可以先读这篇,再回到本系列主线。 |
系列结构
01到03:建立系统入口和基本图景,先看为什么在线推理不是单次forward,以及 vLLM 为什么天然需要分层入口。04到07:进入系统主干,分别拆 Scheduler、KV Cache / PagedAttention、Prefix Caching 和 Worker 执行链。08到10:把视角切到优化与扩展,讨论调参、高级加速和分布式并行。11到19:把前面的理解压缩成面试表达、源码地图、框架对比、线上调优和通用系统设计能力。
路线图
1 | 00 导读 |
篇目索引
阅读顺序建议
- 想先把系统主干看懂:按
01 → 02 → 04 → 05 → 06 → 07。 - 想优先准备上线和调优:先读
02 → 04 → 05 → 08 → 10 → 14 → 16。 - 想把内容转成面试表达:重点读
11 → 12 → 13 → 17 → 18 → 19。 - 时间有限:至少读
02、04、05、10、14、18,这六篇能把系统主干、扩展和抽象框架串起来。
起始篇
正文从 vLLM系统拆解-01-架构设计:为什么推理引擎不能是一个进程 开始。
系列导航
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Smarter's blog!
评论

