vLLM系统拆解-00-导读:从架构、调度到面试表达的学习路线

阅读本文后应能

  • 看清这个系列到底在回答哪些问题:架构、调度、KV Cache、执行链、调优、分布式、框架对比和面试表达。
  • 按自己的目标选择阅读顺序,而不是把 19 篇文章当成只能线性推进的一条路线。
  • 明确它和站内 Transformer、vLLM 入门实践、推理全景文章的边界,减少重复阅读。

这个系列解决什么问题

一句话概括:先建立 LLM Serving 的物理图景,再把 vLLM 拆成“请求怎么进来、状态怎么推进、KV 怎么存、GPU 怎么跑、系统怎么调、架构怎么扩”六条主线。

这套文章不是 API 手册,也不是源码逐文件导读,而是围绕真实 AI Infra 问题组织:为什么在线推理需要 Scheduler、为什么 KV Cache 会变成核心资源、为什么 Prefix Caching 和 PagedAttention 必须放在同一张图里看、为什么部署调优最终落到 TTFT、ITL、显存预算和 workload 分布上。

与站内其他文章的关系

文章 作用
AI Infra学习之旅-Transformer知识地图 先补 Attention、KV Cache、Prefill/Decode 这些概念从模型层是怎么来的。
现代大模型推理的核心技术全景 从更高一层看现代推理系统要解决的共性问题。
AI-Infra学习之旅-第一个vLLM程序 如果还没跑过 vLLM,可以先用这篇建立最小使用体验。
AI-Infra学习之旅-PagedAttention解析 想先抓住 vLLM 最著名的单点机制,可以先读这篇,再回到本系列主线。

系列结构

  • 0103:建立系统入口和基本图景,先看为什么在线推理不是单次 forward,以及 vLLM 为什么天然需要分层入口。
  • 0407:进入系统主干,分别拆 Scheduler、KV Cache / PagedAttention、Prefix Caching 和 Worker 执行链。
  • 0810:把视角切到优化与扩展,讨论调参、高级加速和分布式并行。
  • 1119:把前面的理解压缩成面试表达、源码地图、框架对比、线上调优和通用系统设计能力。

路线图

1
2
3
4
5
6
00 导读
→ 01 架构设计 → 02 Prefill / Decode / KV Cache → 03 入口分层
→ 04 Scheduler → 05 KV Cache / PagedAttention → 06 Prefix Caching → 07 Worker 执行链
→ 08 性能优化 → 09 高级加速 → 10 分布式部署
→ 11 面试题精讲 → 12 源码地图 → 13 框架对比 → 14 部署调优
→ 15 三层协同 → 16 瓶颈定位 → 17 面试深挖 → 18 通用系统设计 → 19 复盘手册

篇目索引

编号 文章 主题
01 架构设计:为什么推理引擎不能是一个进程 多进程分层、API Server / Engine Core / Worker 职责边界
02 Prefill、Decode与KV Cache:理解vLLM之前的推理基础 自回归推理物理图景、TTFT / ITL 与缓存基础
03 入口分层:LLM、LLMEngine、AsyncLLMEngine与vllm serve 离线入口、在线入口和调用链分层
04 Scheduler:为什么调度单位是token budget Continuous batching、chunked prefill、preemption
05 KV Cache与PagedAttention:核心不是Attention公式,而是存放方式 Block 化缓存、页式管理和调度协同
06 Prefix Caching:跨请求KV复用如何做到精确、高效且安全 前缀复用、block hash、多租户边界
07 Worker执行链:调度决策如何变成GPU上的一步计算 Executor、Worker、Model Runner、Sampler
08 性能优化:参数背后的系统级权衡 token 预算、显存预算、吞吐与延迟权衡
09 高级加速:Speculative Decoding、CUDA Graph与量化 高阶优化针对的瓶颈和适用边界
10 分布式部署:TP、PP、DP、EP各解决什么问题 模型切分、流量扩展和通信代价
11 面试题精讲:从概念到系统设计如何讲清楚为什么 高频问题的回答骨架
12 源码地图:每个核心能力落在哪一层 模块职责、路径速查、源码定位
13 推理框架对比:vLLM、TGI、TensorRT-LLM与SGLang 选型维度、系统风格和适用场景
14 部署调优:从资源预算到线上问题诊断 参数、OOM、CPU/GPU 瓶颈与线上排障
15 调度、KV Cache与Prefix Caching:为什么必须三层协同 统一请求生命周期视角
16 性能瓶颈定位:从现象到根因的分层诊断方法 症状归因、指标和调优次序
17 面试深挖:面试官继续追问为什么时怎么回答 追问展开、trade-off 和反模式
18 通用LLM推理系统设计:从vLLM出发建立框架 从具体实现上升到共性设计原则
19 AI Infra与推理岗面试手册:vLLM学到什么程度才算够用 系列收束、能力分层和复习建议

阅读顺序建议

  • 想先把系统主干看懂:按 01 → 02 → 04 → 05 → 06 → 07
  • 想优先准备上线和调优:先读 02 → 04 → 05 → 08 → 10 → 14 → 16
  • 想把内容转成面试表达:重点读 11 → 12 → 13 → 17 → 18 → 19
  • 时间有限:至少读 020405101418,这六篇能把系统主干、扩展和抽象框架串起来。

起始篇

正文从 vLLM系统拆解-01-架构设计:为什么推理引擎不能是一个进程 开始。


系列导航