CUDA C编程权威指南-导读

本系列为《Professional CUDA C Programming》(中文版《CUDA C编程权威指南》,John Cheng、Max Grossman、Ty McKercher 著)的读书笔记与学习总结,共 10 章,从异构并行概念到多 GPU 与工程实践,形成一条完整的 CUDA 学习路径。


一、本书与系列定位

  • 原书:面向已有 C 基础、希望系统掌握 GPU 编程的读者,兼顾概念与实现,配有大量示例与性能分析。
  • 本系列:按章提炼要点、重难点与前后章衔接,并补充导图、自测题与部分图示,便于复习与自测;每章对应书中一章,节号与「书 X.Y 节」对应,便于与实体书对照。

适合人群:准备系统学 CUDA 的开发者、上过并行计算/体系结构课想动手写 GPU 程序的学生、以及需要把现有 C 代码移植到 GPU 的工程师。


二、建议阅读顺序

建议按第一章 → 第十章顺序阅读;每篇文末有「上一篇」「下一篇」链接,便于连续阅读。

序号 章节 链接
0 导读(本文)
1 第一章:基于CUDA的异构并行计算 第1章
2 第二章:CUDA编程模型 第2章
3 第三章:CUDA执行模型 第3章
4 第四章:全局内存 第4章
5 第五章:共享内存和常量内存 第5章
6 第六章:流和并发 第6章
7 第七章:调整指令级原语 第7章
8 第八章:GPU加速库和OpenACC 第8章
9 第九章:多GPU编程 第9章
10 第十章:程序实现的注意事项 第10章

三、各章内容概览

章节 核心内容
第1章 并行与异构、弗林分类、Host/Device、第一个 kernel
第2章 内存管理、网格与块、核函数、计时与设备管理
第3章 SM、线程束、分支分化、占用率、归约与展开
第4章 内存模型、对齐与合并、矩阵转置、有效带宽
第5章 共享内存、bank 冲突、转置/归约、常量内存、warp 洗牌
第6章 流与事件、重叠执行、同步、回调与优先级
第7章 warp 洗牌/表决/同步、循环展开、快速数学
第8章 cuBLAS/cuFFT/cuSPARSE/cuRAND、OpenACC
第9章 多设备、P2P、跨设备同步、CUDA-aware MPI、集群
第10章 开发流程、APOD、剖析、调试、C 到 CUDA 移植

本文为「CUDA C编程权威指南」系列导读。基于《Professional CUDA C Programming》by John Cheng, Max Grossman, Ty McKercher。