加载中...
文章
238
标签
328
分类
32
首页
时间轴
标签
分类
关于
Smarter's blog
搜索
首页
时间轴
标签
分类
关于
Smarter's blog
mini-infer系统实战-00-导读:从最小推理链路到 MoE Expert Parallel 的项目路线
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-01-最小推理链路:为什么要从 HuggingFace generate() 走向自己的引擎
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-02-Paged KV Cache 与 Batch Decode:从串行推理到 mini-vLLM
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-03-向量化 KV Gather:为什么 batch 吞吐能从 49% 拉到 88%
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-04-双卡扩展的第一课:Replica 和 Pipeline Parallel 为什么没有想象中有效
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-05-Decode Profiling:还差的 12% 性能到底丢在哪里
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-06-True PagedAttention:从一次 `.item()` 读懂推理链路的脆弱点
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-07-Triton Decode Kernel:自己写一个 attention kernel 到底在补什么
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-08-Preemption 与优先级调度:KV Swap、抢占和真实 bug
发表于
2026-04-08
|
AI Infra
Mini Infer
mini-infer系统实战-09-HTTP 服务化:异步包装、Continuous Batching 与流式解码的三个坑
发表于
2026-04-08
|
AI Infra
Mini Infer
1
2
…
24
Smarter
我就是要爬这座山
再见少年拉满弓,不惧岁月不惧风
文章
238
标签
328
分类
32
Follow Me
公告
路虽远,行则将至;事虽难,做则可成。
不积跬步,无以至千里;不积小流,无以成江海。
漫漫长途,终有回转;余味苦涩,终有回甘。
天下大事,必作于细;天下难事,必作于易。
不经一番寒彻骨,怎得梅花扑鼻香。
最新文章
mini-infer系统实战-00-导读:从最小推理链路到 MoE Expert Parallel 的项目路线
2026-04-08
mini-infer系统实战-01-最小推理链路:为什么要从 HuggingFace generate() 走向自己的引擎
2026-04-08
mini-infer系统实战-02-Paged KV Cache 与 Batch Decode:从串行推理到 mini-vLLM
2026-04-08
分类
AI Agent
1
AI Infra
121
CUDA
19
GPU
15
LLM Serving
3
Mini Infer
25
Pytorch
11
Transformer
12
标签
vLLM
LLM
PagedAttention
KV Cache
AI系统
AI Infrastructure
内存管理
大模型推理
Transformer
推理优化
模型部署
Ubuntu Server
RTX 4090
SSH
VSCode Remote
LLM Serving
分布式推理
量化
MoE
CUDA
GPU编程
并行计算
系列导读
学习路线
性能优化
高性能计算
Shared Memory
Tiling
Memory Bound
Roofline
GEMM
Kaggle
GPU
Register Tiling
外积
Thread Coarsening
cuBLAS
Softmax
LayerNorm
RMSNorm
归档
四月 2026
96
三月 2026
45
二月 2026
15
一月 2026
38
十二月 2025
7
十一月 2025
1
十月 2025
23
九月 2025
2
网站信息
文章数目 :
238
运行时间 :
本站总字数 :
801.5k
本站访客数 :
本站总浏览量 :
最后更新时间 :
搜索
数据加载中