CUDAC编程权威指南

  • Main
  • CUDAC编程权威指南

CUDAC编程权威指南

Pdg2Pic, (美)程润伟(John Cheng),(美)马克斯·格罗斯曼(Max Grossman),(美)泰·麦克切尔(Ty McKercher)著
¿Qué tanto le ha gustado este libro?
¿De qué calidad es el archivo descargado?
Descargue el libro para evaluar su calidad
¿Cuál es la calidad de los archivos descargados?
封面 1
书名 2
版权 3
前言 4
目录 17
第1章 基于CUDA的异构并行计算 22
1.1并行计算 22
1.1.1串行编程和并行编程 23
1.1.2并行性 24
1.1.3计算机架构 25
1.2异构计算 27
1.2.1异构架构 28
1.2.2异构计算范例 30
1.2.3 CUDA:一种异构计算平台 31
1.3用GPU输出Hello World 33
1.4使用CUDA C编程难吗 36
1.5总结 37
1.6习题 37
第2章CUDA编程模型 39
2.1 CUDA编程模型概述 39
2.1.1 CUDA编程结构 40
2.1.2内存管理 41
2.1.3线程管理 45
2.1.4启动一个CUDA核函数 50
2.1.5编写核函数 51
2.1.6验证核函数 52
2.1.7处理错误 53
2.1.8编译和执行 53
2.2给核函数计时 56
2.2.1用CPU计时器计时 56
2.2.2用nvprof工具计时 60
2.3组织并行线程 61
2.3.1使用块和线程建立矩阵索引 61
2.3.2使用二维网格和二维块对矩阵求和 65
2.3.3使用一维网格和一维块对矩阵求和 68
2.3.4使用二维网格和一维块对矩阵求和 69
2.4设备管理 71
2.4.1使用运行时API查询GPU信息 71
2.4.2确定最优GPU 74
2.4.3使用nvidia-smi查询GPU信息 74
2.4.4在运行时设置设备 75
2.5总结 75
2.6习题 76
第3章CUDA执行模型 77
3.1 CUDA执行模型概述 77
3.1.1 GPU架构概述 78
3.1.2 Fermi架构 80
3.1.3 Kepler架构 82
3.1.4配置文件驱动优化 86
3.2理解线程束执行的本质 88
3.2.1线程束和线程块 88
3.2.2线程束分化 90
3.2.3资源分配 95
3.2.4延迟隐藏 97
3.2.5占用率 99
3.2.6同步 102
3.2.7可扩展性 103
3.3并行性的表现 104
3.3.1用nvprof检测活跃的线程束 105
3.3.2用nvprof检测内存操作 106
3.3.3增大并行性 107
3.4避免分支分化 109
3.4.1并行归约问题 109
3.4.2并行归约中的分化 110
3.4.3改善并行归约的分化 114
3.4.4交错配对的归约 116
3.5展开循环 118
3.5.1展开的归约 118
3.5.2展开线程的归约 120
3.5.3完全展开的归约 122
3.5.4模板函数的归约 123
3.6动态并行 125
3.6.1嵌套执行 126
3.6.2在GPU上嵌套Hello World 127
3.6.3嵌套归约 130
3.7总结 134
3.8习题 134
第4章 全局内存 136
4.1 CUDA内存模型概述 136
4.1.1内存层次结构的优点 137
4.1.2 CUDA内存模型 138
4.2内存管理 145
4.2.1内存分配和释放 145
4.2.2内存传输 146
4.2.3固定内存 148
4.2.4零拷贝内存 149
4.2.5统一虚拟寻址 154
4.2.6统一内存寻址 155
4.3内存访问模式 156
4.3.1对齐与合并访问 156
4.3.2全局内存读取 158
4.3.3全局内存写入 166
4.3.4结构体数组与数组结构体 168
4.3.5性能调整 172
4.4核函数可达到的带宽 175
4.4.1内存带宽 175
4.4.2矩阵转置问题 176
4.5使用统一内存的矩阵加法 188
4.6总结 192
4.7习题 193
第5章 共享内存和常量内存 195
5.1 CUDA共享内存概述 195
5.1.1共享内存 196
5.1.2共享内存分配 197
5.1.3共享内存存储体和访问模式 197
5.1.4配置共享内存量 202
5.1.5同步 204
5.2共享内存的数据布局 206
5.2.1方形共享内存 206
5.2.2矩形共享内存 214
5.3减少全局内存访问 220
5.3.1使用共享内存的并行归约 220
5.3.2使用展开的并行归约 223
5.3.3使用动态共享内存的并行归约 225
5.3.4有效带宽 226
5.4合并的全局内存访问 226
5.4.1基准转置内核 226
5.4.2使用共享内存的矩阵转置 228
5.4.3使用填充共享内存的矩阵转置 231…
Año:
2017
Edición:
2017
Editorial:
北京:机械工业出版社
Idioma:
Chinese
ISBN 10:
7111565479
ISBN 13:
9787111565475
Archivo:
PDF, 84.59 MB
IPFS:
CID , CID Blake2b
Chinese, 2017
Leer en línea
Conversión a en curso
La conversión a ha fallado