vLLM系统拆解-00-导读：从架构、调度到面试表达的学习路线

阅读本文后应能

看清这个系列到底在回答哪些问题：架构、调度、KV Cache、执行链、调优、分布式、框架对比和面试表达。
按自己的目标选择阅读顺序，而不是把 19 篇文章当成只能线性推进的一条路线。
明确它和站内 Transformer、vLLM 入门实践、推理全景文章的边界，减少重复阅读。

这个系列解决什么问题

一句话概括：先建立 LLM Serving 的物理图景，再把 vLLM 拆成“请求怎么进来、状态怎么推进、KV 怎么存、GPU 怎么跑、系统怎么调、架构怎么扩”六条主线。

这套文章不是 API 手册，也不是源码逐文件导读，而是围绕真实 AI Infra 问题组织：为什么在线推理需要 Scheduler、为什么 KV Cache 会变成核心资源、为什么 Prefix Caching 和 PagedAttention 必须放在同一张图里看、为什么部署调优最终落到 TTFT、ITL、显存预算和 workload 分布上。

与站内其他文章的关系

文章	作用
AI Infra学习之旅-Transformer知识地图	先补 Attention、KV Cache、Prefill/Decode 这些概念从模型层是怎么来的。
现代大模型推理的核心技术全景	从更高一层看现代推理系统要解决的共性问题。
AI-Infra学习之旅-第一个vLLM程序	如果还没跑过 vLLM，可以先用这篇建立最小使用体验。
AI-Infra学习之旅-PagedAttention解析	想先抓住 vLLM 最著名的单点机制，可以先读这篇，再回到本系列主线。

系列结构

01 到 03：建立系统入口和基本图景，先看为什么在线推理不是单次 forward，以及 vLLM 为什么天然需要分层入口。
04 到 07：进入系统主干，分别拆 Scheduler、KV Cache / PagedAttention、Prefix Caching 和 Worker 执行链。
08 到 10：把视角切到优化与扩展，讨论调参、高级加速和分布式并行。
11 到 19：把前面的理解压缩成面试表达、源码地图、框架对比、线上调优和通用系统设计能力。

路线图

00 导读
  → 01 架构设计 → 02 Prefill / Decode / KV Cache → 03 入口分层
  → 04 Scheduler → 05 KV Cache / PagedAttention → 06 Prefix Caching → 07 Worker 执行链
  → 08 性能优化 → 09 高级加速 → 10 分布式部署
  → 11 面试题精讲 → 12 源码地图 → 13 框架对比 → 14 部署调优
  → 15 三层协同 → 16 瓶颈定位 → 17 面试深挖 → 18 通用系统设计 → 19 复盘手册

篇目索引

编号	文章	主题
01	架构设计：为什么推理引擎不能是一个进程	多进程分层、API Server / Engine Core / Worker 职责边界
02	Prefill、Decode与KV Cache：理解vLLM之前的推理基础	自回归推理物理图景、TTFT / ITL 与缓存基础
03	入口分层：LLM、LLMEngine、AsyncLLMEngine与vllm serve	离线入口、在线入口和调用链分层
04	Scheduler：为什么调度单位是token budget	Continuous batching、chunked prefill、preemption
05	KV Cache与PagedAttention：核心不是Attention公式，而是存放方式	Block 化缓存、页式管理和调度协同
06	Prefix Caching：跨请求KV复用如何做到精确、高效且安全	前缀复用、block hash、多租户边界
07	Worker执行链：调度决策如何变成GPU上的一步计算	Executor、Worker、Model Runner、Sampler
08	性能优化：参数背后的系统级权衡	token 预算、显存预算、吞吐与延迟权衡
09	高级加速：Speculative Decoding、CUDA Graph与量化	高阶优化针对的瓶颈和适用边界
10	分布式部署：TP、PP、DP、EP各解决什么问题	模型切分、流量扩展和通信代价
11	面试题精讲：从概念到系统设计如何讲清楚为什么	高频问题的回答骨架
12	源码地图：每个核心能力落在哪一层	模块职责、路径速查、源码定位
13	推理框架对比：vLLM、TGI、TensorRT-LLM与SGLang	选型维度、系统风格和适用场景
14	部署调优：从资源预算到线上问题诊断	参数、OOM、CPU/GPU 瓶颈与线上排障
15	调度、KV Cache与Prefix Caching：为什么必须三层协同	统一请求生命周期视角
16	性能瓶颈定位：从现象到根因的分层诊断方法	症状归因、指标和调优次序
17	面试深挖：面试官继续追问为什么时怎么回答	追问展开、trade-off 和反模式
18	通用LLM推理系统设计：从vLLM出发建立框架	从具体实现上升到共性设计原则
19	AI Infra与推理岗面试手册：vLLM学到什么程度才算够用	系列收束、能力分层和复习建议