这篇文章解决什么问题

这一篇不讨论具体 kernel 或服务配置,而是给整个系列建立阅读入口。Triton 这个主题天然分成两条主线:一条围绕 OpenAI Triton 展开,关注算子实现、访存组织与性能判断;另一条围绕 NVIDIA Triton Inference Server 展开,关注模型部署、服务调度与压测调优。如果不先把这两条线分开,后续阅读很容易在“写 kernel”和“跑服务”之间来回切换,最后两边都不够稳定。

这个系列如何展开

整个系列按照“先分清对象,再逐步进入实现”的顺序组织。

  • 00 建立实验起点,确认远端 Linux GPU 服务器上的 OpenAI Triton 与 NVIDIA Triton 环境都可以最小验证。
  • 01 先把两个同名的 Triton 拆开,明确它们各自解决的问题和边界。
  • 0205 进入 OpenAI Triton 主线,从编程模型、性能思维一路推进到 matmul、autotune 和推理热点算子。
  • 0608 切到 NVIDIA Triton 主线,从基础部署进入服务端调度,再进入 perf_analyzer 驱动的调优闭环。
  • 09 最后把系列内容收束成一个最小可展示项目,避免文章只停留在知识点层面。

系列目录

推荐阅读方式

如果目标是理解 OpenAI Triton,重点阅读 000102030405。如果目标是把模型组织成稳定的在线推理服务,重点阅读 000106070809。如果目标是把这两个方向串起来形成一个完整的 AI Infra 项目,建议按编号顺序完整阅读。

读完这个系列应该获得什么

这个系列的目标不是让读者记住更多名词,而是建立一组稳定判断。

  • 什么时候应该把问题归到算子实现层。
  • 什么时候应该把问题归到模型服务层。
  • 如何区分实验环境、实现细节和性能结论之间的关系。
  • 如何把零散实验整理成能复现、能比较、能展示的工程成果。

结论

如果把这个系列压缩成一句话,它讨论的是同一个问题的两个层面:一层是“一个算子怎样算得更合理”,另一层是“一个模型怎样以服务的形式跑得更稳定”。只有把这两层连起来,Triton 这个主题才真正具有工程价值。

系列导航