news 2026/5/23 1:38:32

推理框架负责人 — 学习路线 (inference-framework-learning-path)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
推理框架负责人 — 学习路线 (inference-framework-learning-path)

推理框架负责人 — 学习路线

目标:6个月从AI Infra深入到推理框架核心


为什么嵌入式工程师最适合做推理优化

推理优化本质是在GPU上做嵌入式开发

嵌入式推理框架思维映射
MCU寄存器编程CUDA寄存器/共享内存手写PTX=手写汇编
DMA传输优化显存拷贝/异步传输数据搬运的延迟隐藏
中断延迟 ≤ 10μs推理延迟 ≤ 50ms时延敏感系统
静态内存池KV-cache预分配显存预算管理
FOC PWM死区补偿Kernel launch overlap流水线气泡消除
Bootloader模型加载/热更新二进制加载+校验

6个月学习计划

Phase 1:CUDA 基础(Month 1-2)

目标:写出比cuBLAS快的自定义kernel

周次主题内容检验
W1GPU体系结构SM/Warp/线程束/内存层次/occupancy能画出A100 SM架构图
W2CUDA编程模型grid/block/thread、shared memory、bank conflict矩阵乘法 > cuBLAS 80%性能
W3CUDA内存优化合并访问/向量化加载/异步拷贝GEMM kernel手写优化
W4CUDA Stream多流并发/cuBLAS多流/cuBLAS+custom混合两个kernel并行执行

核心项目:手写 GEMM kernel

基线: cuBLAS cublasSgemm (120 TFLOPS on A100) Week 2: naive GEMM → 2 TFLOPS Week 3: tiling + smem → 20 TFLOPS Week 4: double buffer + async copy → 40 TFLOPS 目标: 达到cuBLAS 50%+ 性能

关键资源

  • 《CUDA C++ Programming Guide》前5章
  • github.com/NVIDIA/cutlass— 生产级GEMM模板库
  • Simon Boehm的"How to Optimize a CUDA Matmul Kernel"博客

Phase 2:推理引擎原理(Month 3-4)

目标:理解vLLM/TensorRT-LLM的每一行关键代码

周次主题内容产出
W5-6vLLM深度解剖PagedAttention/KV-cache管理/调度器/前缀缓存vLLM源码分析系列笔记
W7量化原理GPTQ/AWQ/FP8/INT4、act-order/group-size手写一个INT8量化kernel
W8FlashAttention分块计算/softmax rescaling/反向传播手写FlashAttention forward

vLLM精读清单(优先级从高到低):

1. vllm/worker/model_runner.py ← 模型加载+推理循环 2. vllm/core/block_manager.py ← KV-cache块管理(PagedAttention核心) 3. vllm/core/scheduler.py ← 请求调度器 4. vllm/attention/backends/flash_attn.py ← FlashAttention集成 5. vllm/model_executor/layers/fused_moe/ ← MoE kernel (DeepSeek相关)

核心项目:手写 PagedAttention

输入: Q tensor, 分页的KV-cache块表 输出: attention output 关键: 不用cuDNN,纯CUDA实现分页注意力 对比: 与vLLM的PagedAttention kernel性能对比

Phase 3:高级优化(Month 5-6)

目标:独立设计和实现推理优化方案

周次主题内容产出
W9-10投机解码Medusa/Eagle/自回归投机树搜索手写投机解码kernel
W11PD分离Prefill-Decode分离、micro-batching实现PD分离调度器
W12综合实战自建Mini推理引擎Mini推理引擎+benchmark

核心项目:Mini Inference Engine

Mini Inference Engine (纯C++/CUDA, ~3000行) ├── model_loader ← safetensors/gguf加载 ├── attention ← PagedAttention + FlashAttention ├── kv_cache ← 块管理+LRU淘汰 ├── sampler ← top-p/top-k/temperature ├── scheduler ← continuous batching ├── quantization ← INT8/FP8量化支持 └── api_server ← OpenAI兼容HTTP接口

对标测试

模型: Llama-3-8B on A100 vLLM baseline: 2000 tok/s (throughput) Mini Engine V1: 1000 tok/s (50% baseline) Mini Engine V2: 1500 tok/s (75% baseline) ← 及格

能力检查清单

CUDA

  • 手写GEMM达到cuBLAS 50%+ 性能
  • 消除bank conflict、合并全局内存访问
  • 多Stream并行、异步拷贝隐藏延迟
  • 理解Tensor Core编程模型(m16n8k16等)

推理引擎

  • 能画出PagedAttention的内存布局
  • 理解vLLM调度器的3种排队策略(FCFS/Priority/Preempt)
  • 理解Continuous Batching vs Static Batching
  • 知道Prefix Caching如何检测和复用

量化

  • GTPQ/AWQ的数学原理(Hessian-based/activation-aware)
  • FP8 E4M3 vs E5M2的选择依据
  • 量化对attention和FFN的影响差异
  • 手写INT8矩阵乘法kernel

投机解码

  • 理解Medusa Tree Attention的树形掩码
  • 知道投机解码的吞吐-延迟 tradeoff
  • 实现draft model + target model的验证循环

系统

  • 用Nsight Systems分析推理pipeline瓶颈
  • 用Nsight Compute分析单个kernel性能
  • 理解GPU显存碎片问题和解决方案

简历项目清单

🥇 Mini Inference Engine(核心项目)

一个纯C++/CUDA实现的轻量级推理引擎

  • PagedAttention + FlashAttention
  • Continuous Batching
  • OpenAI兼容API
  • 面试价值:直接证明你能胜任推理框架岗位

🥈 手写 GEMM Kernel

从naive到tiling到double buffer的渐进优化

  • 完整benchmark对比cuBLAS
  • Nsight Compute profiling分析
  • 面试价值:CUDA功底的硬通货

🥉 vLLM源码分析系列

公开发表的深度技术文章

  • PagedAttention内存管理
  • 调度器设计
  • 前缀缓存机制
  • 面试价值:证明你的技术品味和表达能力

4️⃣ PD分离调度器原型

实现Prefill-Decode分离的调度策略

  • 延迟敏感度分析
  • 吞吐-延迟Pareto曲线
  • 面试价值:前沿方向,面试官感兴趣的话题

时间表

阶段月份重点每周投入
Phase 1M1-2CUDA基础 + GEMM20h
Phase 2M3-4vLLM + 量化 + FlashAttention20h
Phase 3M5-6投机解码 + Mini引擎25h(冲刺)
总计6个月~520h

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 1:37:29

系列二、配置 连接

一、修改listener.ora1.1、修改前# listener.ora Network Configuration File: C:\Programs\Oracle11g\product\11.2.0\dbhome_1\network\admin\listener.ora # Generated by Oracle configuration tools.SID_LIST_LISTENER (SID_LIST (SID_DESC (SID_NAME CLRExtProc)(ORACLE…

作者头像 李华
网站建设 2026/5/23 1:36:10

大模型提示词压缩技术全景:五大类方法解析与应用指南

工业界和学术界最主流的LLM提示词压缩技术 目录 工业界和学术界最主流的LLM提示词压缩技术 一、技术全景:五大类提示压缩技术 各类技术详解与最新进展 (一)基于剪枝的硬压缩技术(工业界首选) 1. LLMLingua系列(微软研究院,2023-2024) 2. SelectiveContext(2023) 3. …

作者头像 李华
网站建设 2026/5/23 1:33:18

ScaleBITS:硬件对齐的混合精度LLM量化技术解析

1. ScaleBITS框架解析:硬件对齐的混合精度LLM量化技术在大型语言模型(LLM)部署实践中,内存占用和计算成本已成为关键瓶颈。以70B参数的模型为例,FP16精度下仅权重就需要140GB内存,远超多数消费级显卡容量。传统4-bit量化虽能缓解这…

作者头像 李华
网站建设 2026/5/23 1:29:08

指针(一)

深入理解指针const修饰指针 const:表示被修饰的变量具有常量属性;const就是常量的意思1)当我们创建一个变量,例如变量a,创建后我们可以通过二次赋值,改变它的值。如图所示:但我们使用const修饰它的一个变量的时候&…

作者头像 李华
网站建设 2026/5/23 1:26:01

gd32f303烧录提示Flash Timeout. Reset the Target and try it again.;

出现这个原因,是因为我在代码中使用了: ob_security_protection_config(FMC_USPC); // 开启保护 保护装置,导致烧录的时候出现 Flash Timeout. Reset the Target and try it again.; Error: Flash Download failed - "Cort…

作者头像 李华
网站建设 2026/5/23 1:17:15

第16届华城船游节5月22日起航

华城市文化观光财团宣布,韩国著名的海洋文化庆典第16届华城船游节将于5月22日至25日在前谷港一带举行,为期四天。 华城船游节是韩国的官方文化观光庆典之一,今年的庆典升级为融合海上休闲体验与顶级文化表演的沉浸式庆典,看点更…

作者头像 李华