CUDA C编程权威指南-导读
CUDA C编程权威指南-导读
本系列为《Professional CUDA C Programming》(中文版《CUDA C编程权威指南》,John Cheng、Max Grossman、Ty McKercher 著)的读书笔记与学习总结,共 10 章,从异构并行概念到多 GPU 与工程实践,形成一条完整的 CUDA 学习路径。
一、本书与系列定位
- 原书:面向已有 C 基础、希望系统掌握 GPU 编程的读者,兼顾概念与实现,配有大量示例与性能分析。
- 本系列:按章提炼要点、重难点与前后章衔接,并补充导图、自测题与部分图示,便于复习与自测;每章对应书中一章,节号与「书 X.Y 节」对应,便于与实体书对照。
适合人群:准备系统学 CUDA 的开发者、上过并行计算/体系结构课想动手写 GPU 程序的学生、以及需要把现有 C 代码移植到 GPU 的工程师。
二、建议阅读顺序
建议按第一章 → 第十章顺序阅读;每篇文末有「上一篇」「下一篇」链接,便于连续阅读。
| 序号 | 章节 | 链接 |
|---|---|---|
| 0 | 导读(本文) | — |
| 1 | 第一章:基于CUDA的异构并行计算 | 第1章 |
| 2 | 第二章:CUDA编程模型 | 第2章 |
| 3 | 第三章:CUDA执行模型 | 第3章 |
| 4 | 第四章:全局内存 | 第4章 |
| 5 | 第五章:共享内存和常量内存 | 第5章 |
| 6 | 第六章:流和并发 | 第6章 |
| 7 | 第七章:调整指令级原语 | 第7章 |
| 8 | 第八章:GPU加速库和OpenACC | 第8章 |
| 9 | 第九章:多GPU编程 | 第9章 |
| 10 | 第十章:程序实现的注意事项 | 第10章 |
三、各章内容概览
| 章节 | 核心内容 |
|---|---|
| 第1章 | 并行与异构、弗林分类、Host/Device、第一个 kernel |
| 第2章 | 内存管理、网格与块、核函数、计时与设备管理 |
| 第3章 | SM、线程束、分支分化、占用率、归约与展开 |
| 第4章 | 内存模型、对齐与合并、矩阵转置、有效带宽 |
| 第5章 | 共享内存、bank 冲突、转置/归约、常量内存、warp 洗牌 |
| 第6章 | 流与事件、重叠执行、同步、回调与优先级 |
| 第7章 | warp 洗牌/表决/同步、循环展开、快速数学 |
| 第8章 | cuBLAS/cuFFT/cuSPARSE/cuRAND、OpenACC |
| 第9章 | 多设备、P2P、跨设备同步、CUDA-aware MPI、集群 |
| 第10章 | 开发流程、APOD、剖析、调试、C 到 CUDA 移植 |
本文为「CUDA C编程权威指南」系列导读。基于《Professional CUDA C Programming》by John Cheng, Max Grossman, Ty McKercher。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Smarter's blog!
评论
