本文总结了大模型面试高频考点,涵盖Transformer架构、LoRA原理、SFT后训练、DPO与GRPO损失函数、Agent框架设计、高质量训练集构造、量化技术、ZeRO优化策略等关键技术点。同时深入探讨了显存优化方案、算法题(合并区间、KV Cache计算)及MoE模型推理特性。内容结合实习项目经验,提供问题解决思路与实验设计要点,助力求职者系统复习,提升面试竞争力。
一面
1.自我介绍
2.介绍主流 Transformer-based 模型架构
3.讲一下 LoRA 原理
4.为什么 SFT 之后还要进行后训练
5.讲一下 DPO 的损失函数怎么计算
6.讲一下 GRPO 原理
7.使用 GRPO 时,构造数据要符合什么要求
8.熟悉哪些 Agent 框架
9.如果要设计一个好的 Agent,除了大模型,还会设计哪些部分
10.怎么构造高质量训练集
11.Dense 模型和 MoE 模型有什么区别
12.量化发挥作用的原理是什么
13.讲一下 ZeRO-1、ZeRO-2、ZeRO-3
14.如果显存有限,会选择哪个方案训练
15.算法题:LeetCode 56 合并区间
二面
1.自我介绍
2.详细介绍实习工作
3.重点讲清楚自己解决的是什么问题
4.讲清楚背景、自己负责的问题、以及一步步解决的过程
5.讲一下通过这段工作总结了哪些经验
6.介绍最终各个指标
7.SFT 的 LoRA 和 DPO 的 LoRA 有什么区别
8.详细展开实习工作
9.设计了哪些实验
10.最终选择了哪个方案,为什么
11.最终交付是怎么交付的
12.聊了一下 RAG
13.反问:组里大概工作方向
三面
1.自我介绍
2.讲一下实习工作主要解决的是什么问题
3.训练数据怎么来的,最终几个评测集怎么用,训练了多少个 Epoch
4.为什么在做完一个项目后离职
5.算法题和开放题:计算 KV Cache 显存需要哪些前置数据,KV Cache 显存怎么计算
6.3B Dense 模型和 32B-a3B MoE 模型,哪个推理延迟更低、推理速度更快
7.MoE 模型第一次推理激活专家 1、3、5,第二次激活专家 2、4、6,专家切换的成本主要是什么
8.大模型服务 API 定价问题:不同服务方案下,1K Token、32K 上下文、128K 上下文的输入输出定价如何设计
9.算法题:会议室预定问题,判断某个时刻点是否可以预定
假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。
接下来告诉你一条最快的邪修路线,
3个月即可成为模型大师,薪资直接起飞。
阶段1:大模型基础
阶段2:RAG应用开发工程
阶段3:大模型Agent应用架构
阶段4:大模型微调与私有化部署
配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇