Smarter's blog - 要学习、要快乐

加载中...

mini-infer系统实战-00-导读：从最小推理链路到 MoE Expert Parallel 的项目路线

mini-infer系统实战-00-导读：从最小推理链路到 MoE Expert Parallel 的项目路线

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-01-最小推理链路：为什么要从 HuggingFace generate() 走向自己的引擎

mini-infer系统实战-01-最小推理链路：为什么要从 HuggingFace generate() 走向自己的引擎

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-02-Paged KV Cache 与 Batch Decode：从串行推理到 mini-vLLM

mini-infer系统实战-02-Paged KV Cache 与 Batch Decode：从串行推理到 mini-vLLM

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-03-向量化 KV Gather：为什么 batch 吞吐能从 49% 拉到 88%

mini-infer系统实战-03-向量化 KV Gather：为什么 batch 吞吐能从 49% 拉到 88%

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-04-双卡扩展的第一课：Replica 和 Pipeline Parallel 为什么没有想象中有效

mini-infer系统实战-04-双卡扩展的第一课：Replica 和 Pipeline Parallel 为什么没有想象中有效

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-05-Decode Profiling：还差的 12% 性能到底丢在哪里

mini-infer系统实战-05-Decode Profiling：还差的 12% 性能到底丢在哪里

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-06-True PagedAttention：从一次 `.item()` 读懂推理链路的脆弱点

mini-infer系统实战-06-True PagedAttention：从一次 `.item()` 读懂推理链路的脆弱点

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-07-Triton Decode Kernel：自己写一个 attention kernel 到底在补什么

mini-infer系统实战-07-Triton Decode Kernel：自己写一个 attention kernel 到底在补什么

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-08-Preemption 与优先级调度：KV Swap、抢占和真实 bug

mini-infer系统实战-08-Preemption 与优先级调度：KV Swap、抢占和真实 bug

发表于2026-04-08|AI InfraMini Infer

mini-infer系统实战-09-HTTP 服务化：异步包装、Continuous Batching 与流式解码的三个坑

mini-infer系统实战-09-HTTP 服务化：异步包装、Continuous Batching 与流式解码的三个坑

发表于2026-04-08|AI InfraMini Infer

数据加载中