幻仿编程 Udemy 付费课程,独家中英字幕 + 配套资料!
限时1折特惠!课程永久访问权,随时随地学习!
掌握 CUDA GPU 并行编程(硬件 & 软件)
高性能计算的性能优化与分析
讲师:Hamdy egy
![图片[1]-【Udemy课程】掌握GPU并行编程:CUDA硬件与软件实战 | Mastering GPU Parallel Programming with CUDA ( HW & SW )-幻仿编程](https://hfbc101.com/wp-content/uploads/2026/01/【00637】mastering-gpu-parallel-programming-with-cuda.webp)
你将学到的内容
- 全面了解 GPU 与 CPU 架构的区别
- 了解图形处理单元(GPU)的发展历史,直至最新产品
- 掌握 GPU 的内部结构
- 了解不同类型的存储器以及它们对性能的影响
- 了解 GPU 内部组件的最新技术
- 掌握 CUDA 在 GPU 上的基础编程
- 在 Windows 与 Linux 上使用 CUDA 开始 GPU 编程
- 理解实现并行化的最高效方法
- 性能分析与调优
- 利用共享内存提升性能
先决条件
- C 与 C++ 基础
- Linux 与 Windows 基础
- 计算机体系结构基础
课程简介
本实践课程将教你如何使用 CUDA 发掘现代 GPU 的强大并行计算能力。你将从 GPU 硬件的基本原理入手,追溯旗舰架构的演进(Fermi → Pascal → Volta → Ampere → Hopper),并通过代码实验室学习如何编写、分析和优化高性能 kernel。
本课程为独立培训资源,未受 NVIDIA 公司赞助、认可或以其他方式关联。 “CUDA”、 “Nsight” 以及各代架构代号均为 NVIDIA 的商标,仅作事实性引用。
你将掌握的内容
- GPU 与 CPU 基础 – 为什么 GPU 在数据并行工作负载中占据优势。
- 代际设计进步 – 对性能影响最大的硬件特性。
- CUDA 工具包安装 – Windows、Linux 与 WSL 的安装步骤及首次运行检查。
- CUDA 核心概念 – 线程、块、网格以及存储层次结构,配合向量相加等实验进行学习。
- 使用 Nsight Compute / nvprof 进行分析与调优 – 测量占用率、隐藏延迟、突破瓶颈。
- 矩阵的二维索引 – 为实际线性代数任务编写高效 kernel。
- 优化手册 – 处理非 2 的幂数据、利用共享内存、最大化带宽、最小化 warp 分歧。
- 稳健的调试与错误处理 – 使用运行时 API 检查,交付可投入生产的代码。
课程结束后,你将能够设计、分析并微调在当代 GPU 上高效运行的 CUDA kernel,为应对高强度的科学、工程和人工智能工作负载奠定坚实基础。
适合人群
- 对 GPU 与 CUDA 感兴趣的任何人,如工程类学生、研究人员以及其他相关从业者。
| 共 57 节课程 • 总时长 23 小时 24 分钟 | |
| 第一章 英伟达GPU硬件入门 | |
| 1. 01 | 21分16秒 |
| 2. GPU与CPU对比(非常重要) | 20分49秒 |
| 3. 英伟达发展史(英伟达如何主导GPU市场) | 5分18秒 |
| 4. 架构与代际关系 [Hopper、Ampere、GeForce与Tesla] | 16分7秒 |
| 5. 如何了解架构与代际 | 6分56秒 |
| 6. GPU与GPU芯片的区别 | 4分50秒 |
| 7. 架构与对应芯片 | 5分25秒 |
| 8. 英伟达GPU架构演进:从费米到霍珀 | 12分24秒 |
| 9. 不同架构比较所需参数 | 24分5秒 |
| 10. 半精度、单精度和双精度运算 | 6分27秒 |
| 11. GPU计算能力与利用率 | 8分30秒 |
| 12. 阅读白皮书前必看 | 8分43秒 |
| 13. 伏特+安培+帕斯卡+SIMD(不要跳过) | 52分8秒 |
| 第二章 安装Cuda及其他程序 | |
| 1. CUDA工具包安装的功能 | 6分38秒 |
| 2. 在Windows上安装CUDA | 4分48秒 |
| 3. 在Windows系统上安装WSL使用Linux | 6分27秒 |
| 4. 在Linux上安装Cuda工具包 | 3分47秒 |
| 第三章 CUDA编程入门 | |
| 1. 从CUDA到硬件的软件映射及CUDA简介 | 12分49秒 |
| 2. Hello World程序(线程与块) | 20分39秒 |
| 3. 在Linux上编译Cuda | 9分54秒 |
| 4. Hello World程序(Warp_IDs) | 9分3秒 |
| 5. 向量加法 + 任何CUDA项目的步骤 | 22分30秒 |
| 6. 向量加法与线程索引及GPU性能优化 | 18分21秒 |
| 7. 并行化层级 – 超大规模向量加法 | 18分31秒 |
| 第四章 性能分析 | |
| 1. 使用运行时API查询设备属性 | 18分46秒 |
| 2. Nvidia-smi及其配置(Linux用户版) | 27分30秒 |
| 3. GPU占用率与延迟隐藏 | 52分32秒 |
| 4. 每个流多处理器分配的活跃块(重要) | 16分55秒 |
| 5. 从nsight compute开始(第1期) | 9分1秒 |
| 6. 英伟达所有性能分析工具(Nsight系统 – 计算 – nvprof …) | 4分35秒 |
| 7. 错误检查API | 30分17秒 |
| 8. 使用命令行分析进行Nsight Compute性能分析 | 39分21秒 |
| 9. 图形化Nsight Compute(Windows与Linux) | 59分 |
| 第五章 过往应用性能分析 | |
| 1. 性能分析 | 32分41秒 |
| 2. 非2的幂次向量加法!!!重要 | 11分58秒 |
| 第六章 索引 | |
| 1. 使用二维块和线程的矩阵加法 | 51分2秒 |
| 2. 为什么一级缓存命中率为零 | 24分38秒 |
| 第七章 共享内存与线程束分化 | |
| 1. 共享内存 | 34分50秒 |
| 2. Warp 分支 | 15分17秒 |
| 第八章 调试工具 | |
| 1. 使用Visual Studio进行调试(重要)1 | 40分12秒 |
| 第九章 向量归约 | |
| 1. 仅使用全局内存的向量归约(基准版) | 1时3分6秒 |
| 2. 理解代码与向量归约的性能分析 | 40分2秒 |
| 3. 优化向量归约(移除过滤器) | 22分46秒 |
| 4. 竞争条件与调试选项 | 24分38秒 |
| 5. 优化向量归约中的线程利用率 | 37分34秒 |
| 6. 使用共享内存和循环展开的优化 | 32分20秒 |
| 7. 洗牌操作优化 | 49分9秒 |
| 第十章 屋顶线模型 | |
| 1. 屋顶线分析(计算与内存边界应用) | 43分15秒 |
| 第11章 矩阵乘法(附加内容) | |
| 1. 矩阵乘法的朴素实现 | 1时1分11秒 |
| 2. 利用共享内存优化矩阵乘法 | 59分37秒 |
| 3. 使用float4优化MM(重要) | 53分12秒 |
| 4. 矩阵乘法中的平铺 | 21分9秒 |
| 5. 张量核心(简介) | 20分4秒 |
| 6. 张量核心的实用评估 | 9分11秒 |
| 7. 使用WMMA API编程张量核心 | 43分7秒 |
| 8. WMMA API实战示例 | 11分6秒 |
| 9. 使用CUBlas库编程张量核心 | 17分57秒 |
| 1. 关于课程更新与获取 如何获取本站课程? ○ 免费获取方式:在本站签到、评论、发布文章等可获取积分,通过积分购买课程。 ○ 付费获取方式:购买本站【月度会员】或【永久会员】。 课程购买后是否支持更新? ○ 是的,所有课程均提供免费更新服务。 我们致力于为您提供持续的学习支持。 如何获取更新? ○ 单独购买的课程: 您可在“个人中心”随时查看购买记录及最新下载链接,轻松获取免费更新。 ○ 永久会员: 您可在相关页面直接查看最新下载地址,随时免费获取更新。 ○ 非永久会员(重要提示):通过会员权限下载的课程,在“个人中心”可能不显示具体订单记录。 因此,会员到期后,您将无法通过“个人中心”查看最新下载链接。 ① 解决方案建议:续费会员: 恢复会员权限后,即可再次查看所有最新下载链接。 ② 妥善保存下载链接: 我们强烈建议您在会员有效期内,保存好本站分享的课程下载链接。通常,课程更新内容会直接补充到原有分享链接中。 |
| 2. 关于课程资料 课程下载后资料是否齐全? ○ 绝大部分课程资料齐全。 我们尽力确保您获得完整的学习资源。 ○ 少数情况说明: 极少数课程可能存在资料缺失情况。针对 Udemy 课程,资料形式多样,请知悉:本地文件(随视频下载): 此类课件通常随视频一并提供,下载即得。 ① 本地文件(含链接): 课件文件中会提供资料下载链接,您需自行访问链接下载。此类资料通常也可获取。 ② 在线平台存储(如 GitHub): 讲师会在视频中说明资料获取方式(如访问特定平台),请您按指引自行下载。 ③ Udemy 平台内资料: 部分资料需登录您在 Udemy 购买的账号才能查看。此类资料本站无法提供,除非您自行在 Udemy 平台购买该课程。 |
| 3. 关于课程字幕 是否提供中英文双字幕?原本无字幕的课程是否支持? ○ 是的,本站下载的所有课程均提供中英文双字幕,包括 Udemy 原本无任何字幕的课程。 我们致力于提升您的学习体验。 Udemy 字幕现状与本站服务: ○ Udemy 绝大多数课程本身不提供任何字幕。在少数提供字幕的课程中,也几乎不提供中文字幕。 本站字幕服务流程: ① Udemy 有字幕: 我们会将其翻译成中文字幕,与英文字幕一同提供。 ② Udemy 无字幕: 我们会通过技术手段识别生成英文字幕,再翻译成中文字幕,一同提供给您。 字幕服务重要说明(请您理解): ○ 翻译精度: 字幕翻译采用谷歌翻译引擎完成,虽不及人工翻译精准,但足以保障您正常学习理解。 ○ 若您仍然觉得字幕精度较低: 可联系站长针对性润色字幕(该服务仅限本站会员)。 |
| 4. 关于视频存储与使用 视频存储位置与观看/下载方式? 本站所有课程视频均存储于网盘平台。 您支持在线观看: 可在网盘内直接播放学习。 您支持下载: 可将视频下载至本地,使用播放器播放,更灵活便捷。 主要存储网盘:百度网盘 视频格式与加密情况? 本站所有课程视频均以 MP4 或 MKV 通用格式提供。 视频文件不加密,您可自由分享(请遵守相关法律法规)。 播放建议: 使用本地播放器(如 PotPlayer)播放时,可同时加载中英文字幕文件,学习体验更佳。您可参考我们提供的《PotPlayer 挂载中英双字幕教程》。 |
| 5. 关于售后支持与退款政策 遇到问题如何联系? 无论您在购买前或购买后遇到任何疑问,都欢迎随时联系站长。 我们将竭诚为您服务。 退款政策说明: 原则: 由于虚拟商品(课程、资料等)具有可复制性,一旦购买成功并完成下载,原则上不支持退款。 请您在购买前仔细阅读课程介绍、资料说明及本条款,确认符合您的需求。 如有不确定之处,欢迎先行咨询站长。 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END





























暂无评论内容