CUDA C编程权威指南-导读

本系列为《Professional CUDA C Programming》（中文版《CUDA C编程权威指南》，John Cheng、Max Grossman、Ty McKercher 著）的读书笔记与学习总结，共 10 章，从异构并行概念到多 GPU 与工程实践，形成一条完整的 CUDA 学习路径。

一、本书与系列定位

原书：面向已有 C 基础、希望系统掌握 GPU 编程的读者，兼顾概念与实现，配有大量示例与性能分析。
本系列：按章提炼要点、重难点与前后章衔接，并补充导图、自测题与部分图示，便于复习与自测；每章对应书中一章，节号与「书 X.Y 节」对应，便于与实体书对照。

适合人群：准备系统学 CUDA 的开发者、上过并行计算/体系结构课想动手写 GPU 程序的学生、以及需要把现有 C 代码移植到 GPU 的工程师。

二、建议阅读顺序

建议按第一章 → 第十章顺序阅读；每篇文末有「上一篇」「下一篇」链接，便于连续阅读。

序号	章节	链接
0	导读（本文）	—
1	第一章：基于CUDA的异构并行计算	第1章
2	第二章：CUDA编程模型	第2章
3	第三章：CUDA执行模型	第3章
4	第四章：全局内存	第4章
5	第五章：共享内存和常量内存	第5章
6	第六章：流和并发	第6章
7	第七章：调整指令级原语	第7章
8	第八章：GPU加速库和OpenACC	第8章
9	第九章：多GPU编程	第9章
10	第十章：程序实现的注意事项	第10章

三、各章内容概览

章节	核心内容
第1章	并行与异构、弗林分类、Host/Device、第一个 kernel
第2章	内存管理、网格与块、核函数、计时与设备管理
第3章	SM、线程束、分支分化、占用率、归约与展开
第4章	内存模型、对齐与合并、矩阵转置、有效带宽
第5章	共享内存、bank 冲突、转置/归约、常量内存、warp 洗牌
第6章	流与事件、重叠执行、同步、回调与优先级
第7章	warp 洗牌/表决/同步、循环展开、快速数学
第8章	cuBLAS/cuFFT/cuSPARSE/cuRAND、OpenACC
第9章	多设备、P2P、跨设备同步、CUDA-aware MPI、集群
第10章	开发流程、APOD、剖析、调试、C 到 CUDA 移植

本文为「CUDA C编程权威指南」系列导读。基于《Professional CUDA C Programming》by John Cheng, Max Grossman, Ty McKercher。