PMPP-第十九章：并行编程与计算思维

前言

经过前十八章的学习，我们掌握了 CUDA 编程的各种技术细节。第十九章是全书的总结与升华，从"术"上升到"道"——计算思维（Computational Thinking）。本章不再讲解具体的 API 或优化技巧，而是讨论如何思考并行问题、如何设计并行算法、如何权衡各种因素。这些思维方式将帮助读者应对未来的各种并行计算挑战。

📦 配套资源：本系列文章配有完整的 GitHub 仓库，包含每章的练习题解答、CUDA 代码实现和详细注释。所有代码都经过测试，可以直接运行。

什么是计算思维

定义

计算思维：用计算机科学的基本概念来解决问题、设计系统、理解人类行为。

——Jeannette Wing, 2006

在并行计算语境下，计算思维包括：

识别问题的并行性
分解任务与数据
设计高效的通信模式
权衡各种资源约束

为什么重要

硬件在变，但思维方式持久。

CUDA 可能被其他技术取代
但并行思维的核心原则不变
掌握思维方式 > 记住 API

问题分解

任务并行 vs 数据并行

任务并行（Task Parallelism）：

不同的处理器执行不同的任务
适合异构任务
例：流水线处理

数据并行（Data Parallelism）：

相同的操作应用到不同的数据
适合同构任务
例：向量加法、矩阵乘法

GPU 偏好数据并行：

SIMT 模型天然支持
数千线程执行相同代码
分支发散会降低效率

分解策略

输出驱动：每个线程负责计算一个输出元素

适合输出位置确定的问题
例：矩阵乘法、图像滤波

输入驱动：每个线程处理一个输入元素

适合输出需要聚合的问题
例：直方图、归约

混合：根据问题特性灵活选择

例：稀疏矩阵——每行一个线程或每 Warp 一行

算法设计模式

常见并行模式

经过前面章节的学习，你已经见过这些经典模式：

模式	描述	示例
Map	一对一变换	ReLU、标量乘法
Reduce	多对一聚合	求和、最大值
Scan	前缀操作	流压缩、基数排序
Stencil	邻域模式	卷积、PDE 求解
Gather	间接读取	查表、稀疏访问
Scatter	间接写入	直方图、排序分桶

模式组合

复杂算法通常是基本模式的组合：

基数排序 = Histogram + Scan + Scatter

稀疏矩阵-向量乘 = Gather + Reduce

BFS = Gather + Scatter + Reduce

识别这些模式有助于快速设计并行算法。

性能优化思维

瓶颈分析

任何程序都有瓶颈，优化要找对方向：

计算瓶颈：

算术操作是限制因素
优化：减少操作数、使用快速数学函数

内存瓶颈：

数据传输是限制因素
优化：提高缓存利用、减少访问次数

延迟瓶颈：

等待时间是限制因素
优化：增加并行度隐藏延迟

Roofline 模型

1	性能 = min(峰值算力, 带宽 × 算术强度)

算术强度 = FLOP / Byte

算术强度	瓶颈类型	优化方向
< 10	内存受限	提高数据复用
> 10	计算受限	优化计算效率

优化层次

┌─────────────────────────────────────────┐
│ 第四层：算法层                           │
│   选择更高效的算法                       │
│   减少总操作数                           │
├─────────────────────────────────────────┤
│ 第三层：并行策略层                       │
│   任务分解方式                           │
│   负载均衡                               │
├─────────────────────────────────────────┤
│ 第二层：内存层                           │
│   全局/共享/寄存器的使用                 │
│   访问模式优化                           │
├─────────────────────────────────────────┤
│ 第一层：指令层                           │
│   循环展开                               │
│   指令级并行                             │
└─────────────────────────────────────────┘

从上往下优化：算法级改进的收益最大。

权衡与决策

常见权衡

1. 并行度 vs 冗余计算

增加并行度可能需要冗余计算：

Tiling 需要 Halo 区域重叠
归约需要额外的合并操作

2. 内存使用 vs 计算效率

预计算查找表：省计算，费内存
实时计算：省内存，费计算

3. 通用性 vs 专用优化

通用代码易维护
专用优化性能好
模板/代码生成可以兼顾

决策框架

1. 理解问题
   - 输入/输出特性
   - 计算密度
   - 数据依赖

2. 选择算法
   - 理论复杂度
   - 并行友好度
   - 实现复杂度

3. 设计并行策略
   - 分解方式
   - 同步需求
   - 通信模式

4. 实现与优化
   - 先正确，后优化
   - Profile 驱动
   - 迭代改进

可扩展性思维

强扩展与弱扩展

强扩展（Strong Scaling）：

问题规模固定
增加处理器，减少时间
受 Amdahl 定律限制

弱扩展（Weak Scaling）：

每处理器负载固定
增加处理器，处理更大问题
受 Gustafson 定律指导

Amdahl 定律

$加速比 = \frac{1}{(1-P) + \frac{P}{N}}$

其中 P 是可并行部分比例，N 是处理器数。

启示：串行部分决定加速上限。

例：95% 可并行，最大加速比 = 20×（无论多少 GPU）

Gustafson 定律

$加速比 = N - (1-P)(N-1)$

启示：增大问题规模可以提高并行效率。

例：95% 可并行，100 GPU，加速比 = 95×

调试与验证

并行程序调试挑战

不确定性：竞态条件导致结果不可重复
规模：数千线程难以逐一追踪
隐蔽性：边界情况难以触发

策略

1. 简化问题

1
2
3

先在小规模数据上测试
1 个 Block → 多 Block
1 个 Warp → 多 Warp

2. 串行参考

// 总是保留串行版本用于验证
float result_cpu = compute_cpu(data, n);
float result_gpu = compute_gpu(data, n);
assert(abs(result_cpu - result_gpu) < epsilon);

3. 使用工具

工具	用途
cuda-memcheck	内存错误检测
Nsight Compute	性能分析
Nsight Systems	系统级分析
printf	简单调试（慎用）

4. 渐进式开发

1
2
3

1. 实现朴素版本，验证正确性
2. 添加一个优化，验证正确性
3. 重复直到满足性能需求

跨平台思维

硬件多样性

不同 GPU 架构有不同特性：

特性	Kepler	Pascal	Volta	Ampere
SM 内存(KB)	64	64	96	164
L2 缓存(MB)	1.5	4	6	40
Tensor Core	无	无	有	有

策略：

使用运行时查询能力
参数化关键常量
针对目标硬件调优

可移植性

CUDA 之外：

OpenCL：跨厂商
SYCL：C++ 标准化
HIP：AMD GPU

抽象库：

Thrust：STL 风格
CUB：低级原语
cuBLAS/cuDNN：领域特定

持续学习

技术演进

GPU 技术快速发展：

过去：可编程着色器 → CUDA 诞生
现在：Tensor Core、光线追踪
未来：量子模拟？神经形态计算？

保持学习：

阅读最新论文
关注 GTC 大会
参与开源项目

社区资源

NVIDIA Developer Blog：技术文章
CUDA Zone：官方资源
GitHub：开源项目
Stack Overflow：问题解答
课程：UIUC、Stanford 公开课

总结：并行编程心法

十条原则

理解硬件：了解你的 GPU 架构，扬长避短
数据为王：并行程序性能通常受限于数据移动
最大化并行：暴露足够的并行性隐藏延迟
最小化同步：同步是性能杀手
合并访问：让内存访问连续
复用数据：共享内存是你最好的朋友
避免发散：让同一 Warp 的线程走相同路径
权衡取舍：没有银弹，只有适合具体问题的解
Profile 优先：数据驱动优化，不要猜测
渐进迭代：先正确，后优化，持续改进

从技术到思维

初学者：学习 API 和语法
         ↓
进阶者：掌握优化技巧
         ↓
高手：形成并行思维
         ↓
专家：能设计新算法

这本书带你走完了前两个阶段，后两个阶段需要通过实践和持续学习来达成。

小结

第十九章是全书的升华，总结了并行编程的核心思维：

计算思维：用计算的视角看问题——分解、模式匹配、抽象、算法设计。

问题分解：任务并行 vs 数据并行，输出驱动 vs 输入驱动。根据问题特性选择。

设计模式：Map、Reduce、Scan、Stencil、Gather、Scatter——识别这些模式能快速构建解决方案。

性能思维：瓶颈分析、Roofline 模型、分层优化。从算法层开始，逐层向下。

权衡决策：没有完美方案，只有最适合当前约束的方案。理解各种权衡才能做出好决策。

可扩展性：Amdahl vs Gustafson，强扩展 vs 弱扩展。理解极限有助于设定合理预期。

CUDA 只是工具，思维方式才是核心竞争力。希望这本书不仅教会你 CUDA 编程，更培养了你的并行计算思维。

参考资料：

Hwu, W., Kirk, D., & El Hajj, I. (2022). Programming Massively Parallel Processors: A Hands-on Approach (4th Edition). Morgan Kaufmann.
Wing, J. M. (2006). Computational Thinking. Communications of the ACM.
Williams, S., et al. (2009). Roofline: An Insightful Visual Performance Model. Communications of the ACM.

本文 GitHub 仓库: https://github.com/psmarter/PMPP-Learning