2025 年是大语言模型(LLMs)取得显著进展且成果丰硕的一年。以下是一份个人认为值得关注且稍有意外的“范式转变”清单 —— 这些变化改变了行业格局,在概念上让我印象深刻。
1. 基于可验证奖励的强化学习 (RLVR)
在 2025 年初,所有实验室的大语言模型(LLM)生产堆栈大致如下:
- 预训练(约 2020 年的 GPT-2/3)
- 有监督微调(InstructGPT,约 2022 年)
- 基于人类反馈的强化学习(RLHF ~2022)
有一段时间,这是训练生产级大语言模型(LLM)的稳定且经过验证的方法。2025 年,基于可验证奖励的强化学习(RLVR)成为事实上的新的主要阶段,被加入到这一组合中。
通过在多个环境(例如数学/代码谜题)中针对自动可验证的奖励来训练大语言模型,大语言模型会自发地形成在人类看来类似“推理”的策略 —— 它们学会将问题解决分解为中间计算步骤,并学会一系列来回推导以解决问题的策略(参见 DeepSeek R1 论文中的示例)。
这些策略在之前的范式中很难实现,因为不清楚大语言模型的最优推理轨迹和恢复过程是什么样的 —— 它必须通过针对奖励的优化来找到适合自己的方法。
与 SFT 和 RLHF 阶段不同,这两个阶段相对较薄/较短(计算上属于微调),RLVR 涉及针对客观(不可操纵)奖励函数进行训练,这使得优化过程可以长得多。事实证明,运行 RLVR 能以较低成本提供高能力,消耗了原本用于预训练的计算资源。
因此,2025 年的大部分能力进展是由大语言模型实验室在这个新阶段的持续推进所定义的,总体而言,我们看到大语言模型的规模大致相同,但 RL运行时间长得多。
同样,这个新阶段的独特之处在于,我们有了一个全新的控制旋钮(以及相关的缩放定律),通过生成更长的推理轨迹和增加“思考时间”,将能力作为测试时间计算的函数进行控制。OpenAI o1(2024 年末)是 RLVR 模型的首次展示,但 o3 版本(2025 年初)是明显的转折点,你可以直观地感受到其中的差异。
2. 幽灵与动物 / 参差不齐的智慧
2025 年是我(我想行业内其他人也一样)首次开始以更直观的方式内化大语言模型(LLM)智能“形态”的时间点。我们不是“进化/成长中的动物”,而是在“召唤幽灵”。大语言模型堆栈的一切都不同(神经架构、训练数据、训练算法,尤其是优化压力),所以我们在智能领域得到截然不同的实体也就不足为奇了,用动物视角来思考它们并不合适。
从监督位的角度来看,人类神经网络是为了部落的丛林生存而优化的,而大语言模型神经网络则是为了模仿人类文本、在数学谜题中获取奖励,以及在 LM Arena 上获得人类的点赞而优化的。
由于可验证领域允许强化学习虚拟现实(RLVR),大语言模型在这些领域附近的能力会“激增”,整体表现出有趣的锯齿状性能特征 —— 它们既是天才博学者,又是困惑且认知有挑战的小学生,随时可能被越狱手段欺骗而泄露你的数据。
(人类智能:蓝色,AI 智能:红色。我喜欢这个版本的梗图(抱歉我找不到它在 X 上的原文链接了),因为它指出了人类智能也有其独特的参差不齐之处。)
与此相关的是,我在 2025 年对基准测试普遍感到冷漠并失去信任。核心问题在于,基准测试几乎从构造上就是可验证的环境,因此会立即受到 RLVR 及其较弱形式的影响,这些影响是通过合成数据生成产生的。
在典型的基准测试最大化过程中,大语言模型实验室的团队不可避免地会构建与基准测试所占据的嵌入空间小区域相邻的环境,并生成锯齿状结构来覆盖这些区域。在测试集上进行训练成了一种新的艺术形式。
在打破所有基准测试后,却仍然无法实现 AGI,这会是怎样的情形?
我在本节主题上写了更多内容,详见此处:
- 动物大战幽灵
- 可验证性
- 心灵的空间
3. Cursor / LLM apps 的全新层级
我认为 Cursor 最值得注意的地方(除了它今年的飞速崛起)在于,它令人信服地揭示了“大语言模型应用”的一个新层面 —— 人们开始谈论“适用于 X 的 Cursor”。正如我在今年的 Y Combinator 演讲中所强调的(文字记录和视频),像 Cursor 这样的大语言模型应用会为特定领域打包和编排大语言模型调用:
- 他们进行“语境工程”
- 他们在幕后编排多个大语言模型(LLM)调用,将其串联成日益复杂的有向无环图(DAG),并仔细权衡性能和成本之间的取舍。
- 它们为人工介入环节提供特定应用的 GUI
- 他们提供了一个“自主性滑块”
2025 年,人们花了很多时间讨论这个新应用层有多“厚”。大语言模型实验室会占据所有应用领域,还是大语言模型应用有发展空间?就个人而言,我怀疑大语言模型实验室会倾向于培养出具备通用能力的大学生,但大语言模型应用将通过提供私有数据、传感器、执行器和反馈回路,组织、微调并真正将他们组成的团队转化为特定领域的专业人才。
4. Claude Code / 运行在你电脑上的 AI
Claude Code (CC) 首次令人信服地展示了大语言模型智能体(LLM Agent)的样子 —— 它以循环的方式将工具使用和推理串联起来,以解决复杂问题。此外,CC 对我来说很突出,因为它可以在你的计算机上运行,利用你的私有环境、数据和上下文。
我认为 OpenAI 做错了,因为他们早期的代码生成器/智能体工作重点放在了由 ChatGPT 编排的容器云部署上,而不是简单地在本地主机运行。
虽然在云端运行的智能体群感觉像是 “AGI 终局”,但我们生活在一个能力参差不齐、起飞速度缓慢的过渡世界中,因此直接在开发者的计算机上运行智能体更有意义。请注意,关键的主要区别不在于 “AI 运维” 恰好在哪里运行(在云端、本地或其他地方),而在于其他一切 —— 已经存在并启动的计算机、其安装、上下文、数据、机密、配置以及低延迟交互。
Anthropic 正确地把握了这个优先级顺序,并将 CC 打包成一个令人愉悦的、简约的 CLI 形式,改变了 AI 的面貌 —— 它不只是像谷歌那样你访问的一个网站,而是一个 “生活” 在你计算机上的小灵魂/幽灵。这是一种与 AI 交互的全新、独特的范式。
5. 氛围编码(Vibe coding)
2025 年,AI 跨越了一个能力门槛,仅通过英语就能构建各种令人印象深刻的程序,甚至让人忘记代码的存在。有趣的是,我在这条思绪如潮的推文中创造了“氛围编程”这个术语,当时完全没料到它会产生多大影响 :)。
有了氛围编程,编程不再严格局限于训练有素的专业人员,任何人都可以做到。从这个角度看,这又是我在《人民的力量:大语言模型如何改变技术传播格局》中所写内容的一个例子,即(与迄今为止的所有其他技术形成鲜明对比)普通人从大语言模型中获得的益处比专业人员、企业和政府多得多。
但氛围编程不仅赋予普通人接触编程的能力,也让训练有素的专业人员能够编写更多(氛围编程)软件,否则这些软件根本不会被编写出来。
在 nanochat 中,我用 Rust 氛围编程实现了自己定制的高效 BPE 分词器,而不必采用现有的库或在那个层面学习 Rust。
今年我氛围编程了许多项目,作为我希望存在的东西的快速应用演示(例如,见 menugen、llm-council、reader3、HN 时间胶囊)。
我还氛围编程了整个临时应用程序,只是为了找到一个单一的 bug,因为为什么不呢 —— 代码突然变得免费、临时、可塑,单次使用后即可丢弃。氛围编程将重塑软件并改变工作描述。
6. Nano banana / LLM GUI
Google Gemini Nano banana 是 2025 年最令人惊叹、具有范式转变意义的模型之一。在我的世界观里,大语言模型(LLMs)是下一个主要的计算范式,类似于 20 世纪 70 年代、80 年代等的计算机。因此,我们将看到类似的创新,其根本原因也大致相同。
我们将看到类似于个人计算、微控制器(认知核心)或互联网(智能体)等的等价物。特别是在用户界面和用户体验(UIUX)方面,与大语言模型“聊天”有点像在 20 世纪 80 年代向计算机控制台发出命令。文本是计算机(和大语言模型)原始/偏好的数据表示方式,但它不是人们偏好的格式,尤其是在输入时。人们实际上不喜欢阅读文本 —— 它既慢又费力。
相反,人们喜欢以视觉和空间的方式获取信息,这就是为什么在传统计算中发明了图形用户界面(GUI)。同样,大语言模型应该以我们偏好的格式与我们交流 —— 以图像、信息图表、幻灯片、白板、动画/视频、网络应用等形式。当然,早期和当前的版本包括表情符号和 Markdown 等,它们是通过标题、加粗、斜体、列表、表格等方式对文本进行“修饰”和视觉排版,以便更轻松地阅读。
但究竟谁会来构建大语言模型的图形用户界面(GUI)呢? 在这种世界观中,纳米香蕉是对未来可能模样的首个早期暗示。重要的是,它的一个显著特点是,这不仅仅关乎图像生成本身,还关乎来自文本生成、图像生成和世界知识的联合能力,所有这些都交织在模型权重之中。
总结(TLDR)
2025 年是大语言模型(LLMs)令人兴奋且稍有惊喜的一年。大语言模型正作为一种新型智能崭露头角,既比我预期的聪明得多,又比我预期的愚蠢得多。无论如何,它们都极其有用,而且我认为即使以目前的能力来看,行业也尚未挖掘出它们 **10%**的潜力。
与此同时,有太多的想法值得尝试,从概念上讲,这个领域感觉前景广阔。正如我今年早些时候在德瓦凯什播客中提到的,我同时(表面上看似矛盾)相信我们将见证快速且持续的进步*,*但仍有大量工作要做。系好安全带。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。