news 2026/6/13 13:53:11

程序员必看!2025大模型结构发展全攻略:17个代表性模型对比与学习指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
程序员必看!2025大模型结构发展全攻略:17个代表性模型对比与学习指南

本文系统梳理了2025年大模型结构的发展趋势,聚焦于降低训练成本、提升推理效率和提高输出质量。通过对17个代表性大模型的结构对比分析,包括Deepeek V3、OLMo 2、Gemma 3等,展示了各模型在Transformer基础上的创新与优化,如MLA、MoE结构、滑动窗口注意力机制等,为开发者提供了清晰的模型架构演进路线图。


2025大模型结构发展方向整理

2025年,各大模型团队都在想方设法降低训练成本,提升推理效率,提高输出质量,不断在Transformer的基础上进行修改和优化。

为了把这些模型的差异讲清楚,本文梳理了在结构上颇具代表性的17个大模型,把相近架构之间的关键异同放在同一张表里,方便快速看懂。

这份整理主要参考了AI研究者Sebastian Raschka的文章《The Big LLM Architecture Comparison》。

小编把原文逐段拆解、理解后做了翻译整理,后台回复“模型对比”,获取完整中文版内容。

Deepeek V3 / R1

  • 入选原因:MLA + MoE结构取得很好的效果,成为模板结构
  • 关键点:使用MLA + MoE,显著降低KV Cache成本,同时保持MHA的效果。

OLMo 2

  • 入选原因:训练数据与代码高度透明,配有详尽的技术报告,为开发者提供极佳的参考。
  • 关键点:归一化层采用Post-Norm的变体,同时引入QK-Norm,在注意力层仍然采用MHA。

Gemma 3

  • 入选原因:引入滑动窗口注意力来提升计算效率
  • 关键点:使用较大词表来支持多语言,引入滑动窗口注意力机制,并在归一化层中同时采用Pre-Norm和Post-Norm。另外在Gemma 3n中引入了Per-Layer Embedding和MatFormer概念。

Mistral Small 3.1

  • 入选原因:多项测试中超越Gemma 3 27B,同时推理速度更快
  • 关键点:使用了定制化的tokenizer,缩减了KV-Cache规模和网络层数。使用常规GQA实现。

Llama 4

  • 入选原因:原生支持多模态能力,减少专家数量并增加了单个专家规模
  • 关键点:采用GQA + MoE,交替使用MoE与Dense层,其中MoE层专家数量较少但单个专家规模更大。

Qwen3

  • 入选原因:完整的不同参数模型产品线,并同时保持优秀的效果。
  • 关键点:覆盖0.6B–32B的完整Dense产品线,小模型性能尤其突出。MoE模型放弃了共享专家。

SmolLM3

  • 入选原因:3B模型性能出色,并且公开大量训练细节
  • 关键点:每隔4层使用一次NoPE,是少数继续验证NoPE效果的模型

Kimi K2 / Thinking

  • 入选原因:1T极端参数规模同时具有良好的训练稳定性
  • 关键点:使用Muon代替AdamW进行训练,Thinking版本上下文长度扩展到了256K

GPT-OSS

  • 入选原因:OpenAI继GPT2后首次开源模型
  • 关键点:每一层采用滑动窗口注意力,更宽的结构,更少的专家,采用GQA,引入了attention sinks

Grok 2.5

  • 入选原因:代表早期MoE形态模型在生产环境中落地形态
  • 关键点:少数量大规模的专家设计,额外引入的SwiGLU相当于共享专家

GLM-4.5

  • 入选原因:开始围绕Agent、Tool、Reasoning反向调整模型结构
  • 关键点:在MoE前放置了三个Dense层来提升收敛稳定性和整体性能

Qwen3-Next

  • 入选原因:Attention层改变最大的模型
  • 关键点:引入Gated DeltaNet+Gate Attention的混合机制,同时引入了多token预测机制

MiniMax-M2

  • 入选原因:从M1的线性注意力回退到完整的注意力机制
  • 关键点:高度稀疏的MoE、采用Per-Layer QK-Norm、attention中使用部分RoPE

Kimi Linear

  • 入选原因:代表混合注意力路线模型
  • 关键点:在Qwen3-Next的基础上,使用Kimi Delta Attention,在完整注意力层使用MLA

Olmo 3 Thinking

  • 入选原因:完全开源模型,包括权重、报告、checkpoint、训练数据,极具学术价值。
  • 关键点:使用滑动窗口注意力,延续Post-Norm路线,使用YaRN将上下文扩展到64K

DeepSeek V3.2

  • 入选原因:极好的模型效果
  • 关键点:引入稀疏注意力机制来提高计算与推理效率

Mistral 3

  • 入选原因:架构创新不一定来自于新结构,还可以在工程上打磨
  • 关键点:加入视觉编码器,采用自家tokenizer

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 17:01:26

小程序项目之校园订餐小程序源代码(源码+文档)

大家好我是风歌,曾担任某大厂java架构师,如今专注java毕设领域。今天要和大家聊的是一款java小程序项目——校园订餐小程序。项目源码以及远程配置部署相关请联系风歌,文末附上联系信息。项目简介:管理员功能:主要对首…

作者头像 李华
网站建设 2026/6/12 21:47:19

云服务器救援模式/单用户模式,恢复ssh连接

我的服务器时因为修改ssh配置文件导致xshell连接不上,只能登录服务器后台使用控制台连接,控制台重启进入GRUB引导菜单修改内核 启动参数来恢复ssh配置文件的。本人在操作时忘记截图做记录了所以这篇文章文字很多。1. 进入GRUB引导菜单首先控制台重启服务…

作者头像 李华
网站建设 2026/6/10 20:07:28

大模型——基于浏览器收藏夹的知识库

文章目录 基于浏览器收藏夹的知识库 流程设计 读取收藏夹 根据网页链接获取内容 向量化 基于浏览器收藏夹的知识库 收藏了但是从来没看过”,经常上网的朋友应该都深有感触。最近在整理收藏夹,突然发现很多收藏还是有价值的,如果只是收藏没有用起来,就显得十分浪费了。那么…

作者头像 李华
网站建设 2026/6/10 12:26:06

微观交通流仿真软件:AIMSUN_(9).公共交通系统仿真

公共交通系统仿真 1. 公共交通系统仿真的重要性 公共交通系统仿真是微观交通流仿真软件中一个非常重要的模块。它能够帮助交通规划师和工程师在虚拟环境中测试和评估不同的公共交通方案,从而优化公共交通系统的运行效率和服务质量。通过仿真,可以模拟公…

作者头像 李华
网站建设 2026/6/11 16:55:01

阅读诗歌:时间的沙漏

456、时间的沙漏——灵遁者时光滑落在掌心, 如同千粒细沙,细腻,温热, 却无法握住一粒—— 它们滑向空虚的深渊, 从不回头。 我们站在沙漏的另一端, 凝视着它们从一瞬到永恒, 眼中是无数个虚无的…

作者头像 李华