分类: Mini Infer | Smarter's blog

加载中...

分类 - Mini Infer

2026

mini-infer系统实战-10-阶段复盘：从串行 Decode 到 OpenAI 兼容 HTTP 服务

2026-04-08

mini-infer系统实战-10-阶段复盘：从串行 Decode 到 OpenAI 兼容 HTTP 服务

mini-infer系统实战-11-Chunked Prefill：长 prompt 为什么会饿死并发请求

2026-04-08

mini-infer系统实战-11-Chunked Prefill：长 prompt 为什么会饿死并发请求

mini-infer系统实战-12-Prefix Caching：前缀复用为什么不是简单命中缓存

2026-04-08

mini-infer系统实战-12-Prefix Caching：前缀复用为什么不是简单命中缓存

mini-infer系统实战-13-Speculative Decoding：正确性、接受率与双 forward 代价

2026-04-08

mini-infer系统实战-13-Speculative Decoding：正确性、接受率与双 forward 代价

mini-infer系统实战-14-CUDA Graph：静态图怎么和动态调度共存

2026-04-08

mini-infer系统实战-14-CUDA Graph：静态图怎么和动态调度共存

mini-infer系统实战-15-Flash Decoding：Split-K Attention 为什么能把 SM 利用率拉起来

2026-04-08

mini-infer系统实战-15-Flash Decoding：Split-K Attention 为什么能把 SM 利用率拉起来

mini-infer系统实战-16-Tensor Parallelism：从 Pipeline Parallel 走向真正的权重切分

2026-04-08

mini-infer系统实战-16-Tensor Parallelism：从 Pipeline Parallel 走向真正的权重切分

mini-infer系统实战-17-MLA Attention：从 KV Cache 压缩到矩阵吸收

2026-04-08

mini-infer系统实战-17-MLA Attention：从 KV Cache 压缩到矩阵吸收

mini-infer系统实战-18-PD 解耦：把 Prefill 和 Decode 拆进两个进程之后发生了什么

2026-04-08

mini-infer系统实战-18-PD 解耦：把 Prefill 和 Decode 拆进两个进程之后发生了什么

mini-infer系统实战-19-量化推理：把 Linear 改成 INT8 之后，问题才刚开始

2026-04-08

mini-infer系统实战-19-量化推理：把 Linear 改成 INT8 之后，问题才刚开始

数据加载中