分类: GPU | Smarter's blog

加载中...

分类 - GPU

2026

GPU系统拆解-14-从 PyTorch 到 CUDA Extension：把算子真正接入工程

2026-04-05

GPU系统拆解-14-从 PyTorch 到 CUDA Extension：把算子真正接入工程

GPU系统拆解-13-多 GPU 与通信：并行策略、拓扑与扩展代价

2026-04-05

GPU系统拆解-13-多 GPU 与通信：并行策略、拓扑与扩展代价

GPU系统拆解-12-LLM 推理的 GPU 主线：Prefill、Decode、KV Cache 与系统约束

2026-04-05

GPU系统拆解-12-LLM 推理的 GPU 主线：Prefill、Decode、KV Cache 与系统约束

GPU系统拆解-11-高频 Kernel 设计：从自然并行到资源权衡

2026-04-05

GPU系统拆解-11-高频 Kernel 设计：从自然并行到资源权衡

GPU系统拆解-10-面试表达与系统思维：怎么把 GPU 理解讲成工程判断

2026-04-05

GPU系统拆解-10-面试表达与系统思维：怎么把 GPU 理解讲成工程判断

GPU系统拆解-09-Profiling 与性能定位：先找到瓶颈，再谈优化

2026-04-05

GPU系统拆解-09-Profiling 与性能定位：先找到瓶颈，再谈优化

GPU系统拆解-08-Tensor Core、GEMM 与 FlashAttention：AI 计算热点为什么这样组织

2026-04-05

GPU系统拆解-08-Tensor Core、GEMM 与 FlashAttention：AI 计算热点为什么这样组织

GPU系统拆解-07-PTX、SASS 与编译链：一段 CUDA 代码如何变成指令

2026-04-05

GPU系统拆解-07-PTX、SASS 与编译链：一段 CUDA 代码如何变成指令

GPU系统拆解-06-内存层次与访存主线：GPU 性能为什么常常卡在数据

2026-04-05

GPU系统拆解-06-内存层次与访存主线：GPU 性能为什么常常卡在数据

GPU系统拆解-05-CUDA 执行映射：抽象模型如何落到真实硬件

2026-04-05

GPU系统拆解-05-CUDA 执行映射：抽象模型如何落到真实硬件

数据加载中