【Udemy课程】掌握GPU并行编程:CUDA硬件与软件实战 | Mastering GPU Parallel Programming with CUDA ( HW & SW )

【Udemy课程】掌握GPU并行编程:CUDA硬件与软件实战 | Mastering GPU Parallel Programming with CUDA ( HW & SW )-幻仿编程
【Udemy课程】掌握GPU并行编程:CUDA硬件与软件实战 | Mastering GPU Parallel Programming with CUDA ( HW & SW )
此内容为付费资源,请付费后查看
49.9
立即购买
您当前未登录!建议登陆后购买,可保存购买订单
付费资源
资源分类: 人工智能查看预览
最近更新: 2026-01-14文件内容: 视频+中英文字幕+配套课件
视频分辨率: 720P 准高清文件大小: 2.87GB
视频语言: 英语视频字幕: 中英字幕

幻仿编程 Udemy 付费课程,独家中英字幕 + 配套资料!
限时1折特惠!课程永久访问权,随时随地学习!

掌握 CUDA GPU 并行编程(硬件 & 软件)

高性能计算的性能优化与分析

讲师:Hamdy egy


图片[1]-【Udemy课程】掌握GPU并行编程:CUDA硬件与软件实战 | Mastering GPU Parallel Programming with CUDA ( HW & SW )-幻仿编程

你将学到的内容

  • 全面了解 GPU 与 CPU 架构的区别
  • 了解图形处理单元(GPU)的发展历史,直至最新产品
  • 掌握 GPU 的内部结构
  • 了解不同类型的存储器以及它们对性能的影响
  • 了解 GPU 内部组件的最新技术
  • 掌握 CUDA 在 GPU 上的基础编程
  • 在 Windows 与 Linux 上使用 CUDA 开始 GPU 编程
  • 理解实现并行化的最高效方法
  • 性能分析与调优
  • 利用共享内存提升性能

先决条件

  • C 与 C++ 基础
  • Linux 与 Windows 基础
  • 计算机体系结构基础

课程简介

本实践课程将教你如何使用 CUDA 发掘现代 GPU 的强大并行计算能力。你将从 GPU 硬件的基本原理入手,追溯旗舰架构的演进(Fermi → Pascal → Volta → Ampere → Hopper),并通过代码实验室学习如何编写、分析和优化高性能 kernel。

本课程为独立培训资源,未受 NVIDIA 公司赞助、认可或以其他方式关联。 “CUDA”、 “Nsight” 以及各代架构代号均为 NVIDIA 的商标,仅作事实性引用。

你将掌握的内容

  • GPU 与 CPU 基础 – 为什么 GPU 在数据并行工作负载中占据优势。
  • 代际设计进步 – 对性能影响最大的硬件特性。
  • CUDA 工具包安装 – Windows、Linux 与 WSL 的安装步骤及首次运行检查。
  • CUDA 核心概念 – 线程、块、网格以及存储层次结构,配合向量相加等实验进行学习。
  • 使用 Nsight Compute / nvprof 进行分析与调优 – 测量占用率、隐藏延迟、突破瓶颈。
  • 矩阵的二维索引 – 为实际线性代数任务编写高效 kernel。
  • 优化手册 – 处理非 2 的幂数据、利用共享内存、最大化带宽、最小化 warp 分歧。
  • 稳健的调试与错误处理 – 使用运行时 API 检查,交付可投入生产的代码。

课程结束后,你将能够设计、分析并微调在当代 GPU 上高效运行的 CUDA kernel,为应对高强度的科学、工程和人工智能工作负载奠定坚实基础。

适合人群

  • 对 GPU 与 CUDA 感兴趣的任何人,如工程类学生、研究人员以及其他相关从业者。
共 57 节课程 • 总时长 23 小时 24 分钟
第一章 英伟达GPU硬件入门
1. 0121分16秒
2. GPU与CPU对比(非常重要)20分49秒
3. 英伟达发展史(英伟达如何主导GPU市场)5分18秒
4. 架构与代际关系 [Hopper、Ampere、GeForce与Tesla]16分7秒
5. 如何了解架构与代际6分56秒
6. GPU与GPU芯片的区别4分50秒
7. 架构与对应芯片5分25秒
8. 英伟达GPU架构演进:从费米到霍珀12分24秒
9. 不同架构比较所需参数24分5秒
10. 半精度、单精度和双精度运算6分27秒
11. GPU计算能力与利用率8分30秒
12. 阅读白皮书前必看8分43秒
13. 伏特+安培+帕斯卡+SIMD(不要跳过)52分8秒
第二章 安装Cuda及其他程序
1. CUDA工具包安装的功能6分38秒
2. 在Windows上安装CUDA4分48秒
3. 在Windows系统上安装WSL使用Linux6分27秒
4. 在Linux上安装Cuda工具包3分47秒
第三章 CUDA编程入门
1. 从CUDA到硬件的软件映射及CUDA简介12分49秒
2. Hello World程序(线程与块)20分39秒
3. 在Linux上编译Cuda9分54秒
4. Hello World程序(Warp_IDs)9分3秒
5. 向量加法 + 任何CUDA项目的步骤22分30秒
6. 向量加法与线程索引及GPU性能优化18分21秒
7. 并行化层级 – 超大规模向量加法18分31秒
第四章 性能分析
1. 使用运行时API查询设备属性18分46秒
2. Nvidia-smi及其配置(Linux用户版)27分30秒
3. GPU占用率与延迟隐藏52分32秒
4. 每个流多处理器分配的活跃块(重要)16分55秒
5. 从nsight compute开始(第1期)9分1秒
6. 英伟达所有性能分析工具(Nsight系统 – 计算 – nvprof …)4分35秒
7. 错误检查API30分17秒
8. 使用命令行分析进行Nsight Compute性能分析39分21秒
9. 图形化Nsight Compute(Windows与Linux)59分
第五章 过往应用性能分析
1. 性能分析32分41秒
2. 非2的幂次向量加法!!!重要11分58秒
第六章 索引
1. 使用二维块和线程的矩阵加法51分2秒
2. 为什么一级缓存命中率为零24分38秒
第七章 共享内存与线程束分化
1. 共享内存34分50秒
2. Warp 分支15分17秒
第八章 调试工具
1. 使用Visual Studio进行调试(重要)140分12秒
第九章 向量归约
1. 仅使用全局内存的向量归约(基准版)1时3分6秒
2. 理解代码与向量归约的性能分析40分2秒
3. 优化向量归约(移除过滤器)22分46秒
4. 竞争条件与调试选项24分38秒
5. 优化向量归约中的线程利用率37分34秒
6. 使用共享内存和循环展开的优化32分20秒
7. 洗牌操作优化49分9秒
第十章 屋顶线模型
1. 屋顶线分析(计算与内存边界应用)43分15秒
第11章 矩阵乘法(附加内容)
1. 矩阵乘法的朴素实现1时1分11秒
2. 利用共享内存优化矩阵乘法59分37秒
3. 使用float4优化MM(重要)53分12秒
4. 矩阵乘法中的平铺21分9秒
5. 张量核心(简介)20分4秒
6. 张量核心的实用评估9分11秒
7. 使用WMMA API编程张量核心43分7秒
8. WMMA API实战示例11分6秒
9. 使用CUBlas库编程张量核心17分57秒
1. 关于课程更新与获取

如何获取本站课程?

免费获取方式:在本站签到、评论、发布文章等可获取积分,通过积分购买课程。
付费获取方式:购买本站【月度会员】或【永久会员】。

课程购买后是否支持更新?
是的,所有课程均提供免费更新服务。 我们致力于为您提供持续的学习支持。

如何获取更新?
单独购买的课程: 您可在“个人中心”随时查看购买记录及最新下载链接,轻松获取免费更新。
永久会员: 您可在相关页面直接查看最新下载地址,随时免费获取更新。
非永久会员(重要提示):通过会员权限下载的课程,在“个人中心”可能不显示具体订单记录。

因此,会员到期后,您将无法通过“个人中心”查看最新下载链接。
解决方案建议:续费会员: 恢复会员权限后,即可再次查看所有最新下载链接。
妥善保存下载链接: 我们强烈建议您在会员有效期内,保存好本站分享的课程下载链接。通常,课程更新内容会直接补充到原有分享链接中。
2. 关于课程资料

课程下载后资料是否齐全?
绝大部分课程资料齐全。 我们尽力确保您获得完整的学习资源。
少数情况说明: 极少数课程可能存在资料缺失情况。针对 Udemy 课程,资料形式多样,请知悉:本地文件(随视频下载): 此类课件通常随视频一并提供,下载即得。

本地文件(含链接): 课件文件中会提供资料下载链接,您需自行访问链接下载。此类资料通常也可获取。
在线平台存储(如 GitHub): 讲师会在视频中说明资料获取方式(如访问特定平台),请您按指引自行下载。
③ Udemy 平台内资料: 部分资料需登录您在 Udemy 购买的账号才能查看。此类资料本站无法提供,除非您自行在 Udemy 平台购买该课程。
3. 关于课程字幕

是否提供中英文双字幕?原本无字幕的课程是否支持?
是的,本站下载的所有课程均提供中英文双字幕,包括 Udemy 原本无任何字幕的课程。 我们致力于提升您的学习体验。

Udemy 字幕现状与本站服务:
○ Udemy 绝大多数课程本身不提供任何字幕。在少数提供字幕的课程中,也几乎不提供中文字幕。

本站字幕服务流程:
Udemy 有字幕: 我们会将其翻译成中文字幕,与英文字幕一同提供。
Udemy 无字幕: 我们会通过技术手段识别生成英文字幕,再翻译成中文字幕,一同提供给您。

字幕服务重要说明(请您理解):
翻译精度: 字幕翻译采用谷歌翻译引擎完成,虽不及人工翻译精准,但足以保障您正常学习理解。
若您仍然觉得字幕精度较低: 可联系站长针对性润色字幕(该服务仅限本站会员)。
4. 关于视频存储与使用

视频存储位置与观看/下载方式?
本站所有课程视频均存储于网盘平台。
您支持在线观看: 可在网盘内直接播放学习。
您支持下载: 可将视频下载至本地,使用播放器播放,更灵活便捷。

主要存储网盘:百度网盘

视频格式与加密情况?
本站所有课程视频均以 MP4 或 MKV 通用格式提供。
视频文件不加密,您可自由分享(请遵守相关法律法规)。
播放建议: 使用本地播放器(如 PotPlayer)播放时,可同时加载中英文字幕文件,学习体验更佳。您可参考我们提供的《PotPlayer 挂载中英双字幕教程》。
5. 关于售后支持与退款政策

遇到问题如何联系?
无论您在购买前或购买后遇到任何疑问,都欢迎随时联系站长。 我们将竭诚为您服务。

退款政策说明:
原则: 由于虚拟商品(课程、资料等)具有可复制性,一旦购买成功并完成下载,原则上不支持退款。

请您在购买前仔细阅读课程介绍、资料说明及本条款,确认符合您的需求。 如有不确定之处,欢迎先行咨询站长。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容