mini-infer系统实战-00-导读:从最小推理链路到 MoE Expert Parallel 的项目路线
mini-infer系统实战-00-导读:从最小推理链路到 MoE Expert Parallel 的项目路线
阅读这篇后应获得什么
- 看清这套文章不是“项目日记汇总”,而是一条围绕 LLM 推理系统演进组织出来的工程主线。
- 知道应该先理解哪几类核心问题:KV Cache、调度、服务化、高级加速、多卡并行,以及 MoE Expert Parallel。
- 明确它和站内 Transformer、vLLM、CUDA、GPU、LLM Serving 几条线分别是什么关系。
这个系列解决什么问题
一句话概括:从一个最小可运行的 HuggingFace 推理链路出发,逐步把 mini-infer 推进成一个覆盖缓存管理、连续批处理、服务化、高级加速、多卡扩展和 MoE 原型验证的推理系统实践闭环。
它和很多“讲概念”的推理文章不同,价值不只在于解释术语,而在于把这些术语都落回真实工程问题:为什么串行 decode 不够、为什么 Paged KV Cache 会成为分水岭、为什么调度和服务层必须一起看、为什么 CUDA Graph / Flash Decoding / Prefix Caching 这些优化最后都要回到 workload 和 benchmark 口径上。
与站内其他文章的关系
| 文章 | 作用 |
|---|---|
| 现代大模型推理的核心技术全景 | 先建立 Prefill、Decode、KV Cache、调度和并行的总体问题图。 |
| AI-Infra学习之旅-从 Transformer Block 到 KV Cache:站在推理视角理解 Transformer | 先从模型层理解 KV Cache、Attention、Prefill/Decode 是怎么来的。 |
| vLLM系统拆解-00-导读:从架构、调度到面试表达的学习路线 | 适合把这套自研项目实践和成熟推理框架设计放在一起看。 |
| PyTorch推理工程-09-最小推理项目 | 如果你更关心最小工程闭环,可以把它当成这套系列的轻量前置。 |
| 从 ASGI 到推理服务:FastAPI、Starlette、Uvicorn 在 mini-infer 里如何协作 | 对服务化阶段的 ASGI / FastAPI 栈做更细的概念拆解。 |
| 把推理引擎接成标准接口:结合 mini-infer 讲清 OpenAI-Compatible HTTP API | 对 Phase 9 附近的接口层设计做更细的协议级说明。 |
| 为什么大模型服务需要流式返回:结合 mini-infer 讲清 SSE 的协议、实现与断连处理 | 对流式返回和断连处理补足服务层视角。 |
系列结构
01到05:先把最小推理链路搭起来,再逐步把瓶颈从“能不能跑”推进到“为什么还跑不快”。06到10:把注意力实现、Triton kernel、抢占调度、服务化和阶段复盘串成第一轮完整闭环。11到19:进入更典型的系统优化主题,包括 chunked prefill、prefix caching、speculative decoding、CUDA graph、flash decoding、TP、MLA、PD 解耦和量化。20到24:把重心转到 MoE Expert Parallel,讨论 dispatch、all-to-all、expert sharding、packed communication、control plane 和 grouped execution。
路线图
1 | 00 导读 |
篇目索引
阅读顺序建议
- 想先补最小闭环和基础链路:读
01、02、03、05、06。 - 想重点理解在线推理系统为什么一定会走到服务化和调度:读
08、09、10、11、12。 - 想把优化链补全:读
13、14、15、16、17、18、19。 - 想把视角推进到 MoE Expert Parallel:从
20开始连读到24。
读完之后你应该建立的判断
- 一个推理系统的关键能力,不是某个单点优化,而是缓存、调度、服务层、执行链和 benchmark 口径能不能一起闭环。
- 很多优化并不是“更快的 kernel”这么简单,而是要先把测量窗口、对比基线和 workload 口径量对。
- 自己做一遍 mini-infer 这种项目,最大的价值不是得到一个 production-ready 框架,而是把推理系统里的主矛盾摸清楚。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Smarter's blog!
评论
