Smarter's blog - 要学习、要快乐

加载中...

CUDA-Practice：03 从前缀和到多块扫描——Kogge-Stone 与三遍扫描

CUDA-Practice：03 从前缀和到多块扫描——Kogge-Stone 与三遍扫描

发表于2026-03-12|CUDA-Practice

CUDA-Practice：02 从归约到线程粗化——Warp 发散消除与带宽压榨

CUDA-Practice：02 从归约到线程粗化——Warp 发散消除与带宽压榨

发表于2026-03-12|CUDA-Practice

CUDA-Practice：06 线程束原语与寄存器通信——从 Shuffle 到 Block 归约/扫描

CUDA-Practice：06 线程束原语与寄存器通信——从 Shuffle 到 Block 归约/扫描

发表于2026-03-12|CUDA-Practice

CUDA-Practice：05 从归约到 Transformer 算子——Softmax、Norm 与 FlashAttention

CUDA-Practice：05 从归约到 Transformer 算子——Softmax、Norm 与 FlashAttention

发表于2026-03-12|CUDA-Practice

CUDA-Practice：15 从 Parameter Server 到 Ring AllReduce——多卡通信与全归约

CUDA-Practice：15 从 Parameter Server 到 Ring AllReduce——多卡通信与全归约

发表于2026-03-12|CUDA-Practice

CUDA-Practice：11 推理优化、融合与键值缓存——算子融合、PagedAttention 与连续批处理

CUDA-Practice：11 推理优化、融合与键值缓存——算子融合、PagedAttention 与连续批处理

发表于2026-03-12|CUDA-Practice

CUDA-Practice：13 从 Roofline 到 Nsight——性能天花板与占用率辨虚实

CUDA-Practice：13 从 Roofline 到 Nsight——性能天花板与占用率辨虚实

发表于2026-03-11|CUDA-Practice

CUDA-Practice：09 张量核心与混合精度——WMMA 与 FP16×FP32 协同

CUDA-Practice：09 张量核心与混合精度——WMMA 与 FP16×FP32 协同

发表于2026-03-11|CUDA-Practice

CUDA-Practice：04 从 Tiled GEMM 到寄存器分块——逼近计算墙

CUDA-Practice：04 从 Tiled GEMM 到寄存器分块——逼近计算墙

发表于2026-03-11|CUDA-Practice

CUDA-Practice：01 从 Vector Add 到 Tiled GEMM——带宽墙与数据复用

CUDA-Practice：01 从 Vector Add 到 Tiled GEMM——带宽墙与数据复用

发表于2026-03-10|CUDA-Practice

数据加载中