news 2026/5/1 9:09:48

CUDA核心编程模型:主机(CPU)与设备(GPU)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CUDA核心编程模型:主机(CPU)与设备(GPU)

CUDA 的核心思想是异构计算(Heterogeneous Computing),它假定系统同时拥有一个或多个中央处理器(CPU)作为主机(Host)和一个或多个图形处理器(GPU)作为设备(Device)。这种模型利用 CPU 擅长串行和控制的特点,以及 GPU 擅长大规模并行计算的特点,共同解决复杂的计算问题。

1. 角色与职能划分

主机和设备在 CUDA 编程模型中扮演着清晰的角色,它们共同协作完成任务。

1.1 主机 (Host / CPU) 的职能

CPU 及其连接的系统内存(RAM)被称为主机。主机主要负责程序的串行执行、控制流程和资源管理。

  • 控制与调度:执行程序的串行部分,决定何时启动 GPU 上的并行计算任务(Kernel)。
  • 内存管理:管理主机内存(系统 RAM)和设备内存(通过cudaMalloc等 API 调用)。
  • 数据I/O:负责将数据从主机内存传输到设备内存,以及将计算结果从设备内存传回主机内存。
  • 设备查询:获取和配置 GPU 设备信息。

1.2 设备 (Device / GPU) 的职能

GPU 及其板载显存被称为设备。设备是执行大规模并行计算任务的核心。

  • 并行计算:执行由__global__关键字定义的 Kernel 函数。
  • 高吞吐量:利用数千个 CUDA 核心同时执行成千上万个线程,实现高吞吐量计算。
  • 局部存储:管理快速的片上共享内存(Shared Memory)和寄存器(Registers)供并行线程使用。

2. 内存模型与数据传输

主机和设备拥有独立的内存空间,这是异构计算模型与 CPU 多核并行模型(如 OpenMP)最大的区别。

2.1 独立的内存空间

内存类型所属设备访问速度用途
主机内存 (Host Memory)CPU慢(相对于 L1/L2 缓存)存储程序变量、大型数据集、操作系统管理
设备内存 (Device Global Memory)GPU快(相对于 Host Memory)存储 GPU 计算输入数据、中间结果和最终结果

由于内存独立,数据必须通过 PCI Express 总线在两个内存空间之间显式移动,这通常是 CUDA 程序中的性能瓶颈之一。

2.2 数据传输API

CUDA C/C++ 提供了一套特定的 API 来管理设备内存和数据传输。

API 函数描述传输方向执行位置
cudaMalloc在 GPU 全局内存上分配空间。-Host
cudaFree释放 GPU 全局内存上的空间。-Host
cudaMemcpy在 Host 和 Device 之间,或 Device 内部进行数据复制。H↔\leftrightarrowDHost

代码块:数据传输示例

// 1. Host side: Allocate memory on the Host float* h_data = (float*)malloc(size_bytes); // Initialize h_data... // 2. Device side: Allocate memory on the Device float* d_data; cudaMalloc((void**)&d_data, size_bytes); // 3. Data Transfer: Host to Device // cudaMemcpyHostToDevice 是方向参数 cudaMemcpy(d_data, h_data, size_bytes, cudaMemcpyHostToDevice); // 4. Data Transfer: Device to Host (after computation) // cudaMemcpyDeviceToHost 是方向参数 cudaMemcpy(h_data, d_data, size_bytes, cudaMemcpyDeviceToHost); // 5. Cleanup cudaFree(d_data); free(h_data);

3. Kernel 启动与执行

内核(Kernel)是 CUDA 编程模型的灵魂。它是由__global__关键字修饰的函数,是真正并行执行的代码块。

3.1 Kernel 启动语法

主机通过特殊的启动语法来调用 Kernel 函数,将并行任务从 CPU 调度到 GPU。

kernel_name≪gridDim, blockDim≫(arg1,arg2,…) \text{kernel\_name} \ll \text{gridDim, blockDim} \gg (\text{arg}_1, \text{arg}_2, \ldots)kernel_namegridDim, blockDim(arg1,arg2,)

参数含义作用
gridDim\text{gridDim}gridDim**网格(Grid)**的维度和大小。决定总共启动多少个线程块。
blockDim\text{blockDim}blockDim**线程块(Block)**的维度和大小。决定每个线程块中有多少个线程。

3.2 异步执行机制

Kernel 启动是异步的。当 CPU 调用kernel_name<<<...>>>时,它不会等待 GPU 完成计算,而是立即返回并继续执行主机上的后续代码。

  • 异步的好处:允许 CPU 在 GPU 忙于计算时执行其他串行任务(如数据准备、I/O),从而提高系统的整体吞吐量。
  • 同步的必要性:在需要 GPU 计算结果(例如,进行cudaMemcpyDeviceToHost之前)时,主机必须等待设备完成。可以使用cudaDeviceSynchronize()或其他机制(如 CUDA Streams)来实现同步。

流程图:异步与同步

Yes
Host: Allocate Memory
Host: Copy Data H->D
Host: Launch Kernel<<>> (Asynchronous)
Host: Continue executing other CPU tasks
Device: Kernel Execution (Parallel)
Host: Need GPU Result?
Device: Execution Complete
Host: cudaDeviceSynchronize()
Host: Copy Data D->H
Host: Cleanup and End

4. 统一内存 (Managed Memory)

为了简化主机和设备间的数据管理,NVIDIA 引入了统一内存(Unified Memory)

  • 概念:允许开发者使用一个单独的指针来访问 CPU 和 GPU 上的数据,系统(驱动程序)自动处理数据在 Host 和 Device 内存之间的移动(页错误机制)。
  • 分配:使用cudaMallocManaged()替代cudaMalloc()

统一内存极大地简化了编程,因为它消除了显式的cudaMemcpy调用,使代码更接近于传统的 CPU 编程模型。

// 使用统一内存简化分配和传输 float* data; // data 可以在 Host 和 Device 上使用 cudaMallocManaged((void**)&data, size_bytes); // ... Kernel 启动 ... // 驱动程序自动处理数据移动,无需显式 cudaMemcpy cudaFree(data);

总结:CUDA 编程模型通过严格分离主机(控制与串行)和设备(并行计算),并提供专用的 API 进行内存管理和 Kernel 启动,实现了高性能的异构计算。理解这种 Host-Device 的协作和独立的内存模型是编写高效 CUDA 程序的关键。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:41:28

什么是 5G 单兵?5G 单兵与 5G 执法记录仪的异同解析

173/5434/9498在现代执法、应急救援等场景中&#xff0c;5G 单兵与 5G 执法记录仪都是高频使用的移动可视化装备&#xff0c;但二者定位不同、功能各有侧重 ——5G 单兵是 “全域协同的移动指挥终端”&#xff0c;5G 执法记录仪是 “工作人员随身的取证工具”。这次我们结合伟博…

作者头像 李华
网站建设 2026/5/1 8:09:47

企业开启全球化新征程 GEO筑牢AI时代出海根基

2025年10月28日&#xff0c;《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》&#xff08;以下简称《建议》&#xff09;正式发布&#xff0c;其中明确提出“提升企业全球竞争力&#xff0c;推动制造业、服务业、农业等领域高水平对外开放&#xff0c;培育一批具…

作者头像 李华
网站建设 2026/5/1 7:53:28

InstallerX社区版:重新定义Android应用安装体验的五大革新

InstallerX社区版&#xff1a;重新定义Android应用安装体验的五大革新 【免费下载链接】InstallerX A modern and functional Android app installer. (You know some birds are not meant to be caged, their feathers are just too bright.) 项目地址: https://gitcode.com…

作者头像 李华
网站建设 2026/5/1 6:48:06

MeshCentral终极指南:5个核心步骤打造企业级远程监控平台

MeshCentral终极指南&#xff1a;5个核心步骤打造企业级远程监控平台 【免费下载链接】MeshCentral A complete web-based remote monitoring and management web site. Once setup you can install agents and perform remote desktop session to devices on the local networ…

作者头像 李华
网站建设 2026/5/1 9:07:04

免费查文献的网站推荐:实用平台汇总与使用指南

投稿阶段最怕的不是忙&#xff0c;而是乱。下面这套闭环工具让我从选题到写作都保持节奏。 1. WisPaper&#xff1a;判断赛道是否“拥挤” 用“最近三年”过滤该方向的核心论文&#xff0c;看是否已经卷到天上。搜索同类问题&#xff0c;看方法是否已收敛&#xff0c;是否仍有…

作者头像 李华
网站建设 2026/5/1 6:48:54

设备电磁兼容整改:从原理到实战的技术指南|深圳南柯电子

在万物互联的智能时代&#xff0c;电子设备面临的电磁环境日益复杂。从消费电子到工业控制&#xff0c;从汽车电子到医疗设备&#xff0c;电磁兼容&#xff08;EMC&#xff09;问题已成为制约产品可靠性的关键因素。据统计&#xff0c;全球每年因电磁干扰导致的设备故障损失超过…

作者头像 李华