从大模型叙事到“小模型时代”：2025年中国产业AI求解“真落地”-编程实验室

2025年2月，深圳福田区，部署70名“AI数智员工”，承担了240个政务场景中的文书起草、政策解读、招商辅助等任务。系统上线后，公文格式修正准确率超过95%，审核时间缩短90%，民情分拨效率从70%提升至95%。

支撑这70名AI数智员工的，是671B的DeepSeek‑R1。

DeepSeek以专家混合技术，根据任务自动激活部分网络，只运行需要的部分，从而显著降低推理资源占用，说白了就是用更少的算力解决了更复杂的问题。

严格意义上来说，DeepSeek不算是小模型，但它的出现，让人们开始思考大语言模型的“大”真的有必要吗。

这，成为小模型叙事的起点。后面的几个月里，一些新的变化开始出现。

“2025年初，我们尝试接入云端大模型，性能虽然强，但调用延迟、成本与数据隐私问题都让人头疼。后来改用某大模型厂商4B模型，只用了几小时就部署成功，响应秒级，隐私上也有保障。”某SaaS厂商负责人说道。

也是在2025年初，某家智能家居创业团队在开发一款可以脱网的语音设备时，曾苦恼于大语言模型既占空间又拖性能，这时，参数轻量的0.6B、1.7B、4B版本立刻引起他们关注。当他们把这款模型部署在家用路由器的8GB内存上时，发现其不需要高端GPU，设备即可本地完成自然语言理解与指令执行，无需联网，既节省延迟，也保障隐私。

这种“刚刚好”的智能，逐渐成为一些企业的心头好。

据MarketsandMarkets™研究预测，2025年全球小语言模型市场规模将达9.3亿美元，2032年有望增至54.5亿，年复合增长率高达28.7%。Gartner的报告指出，已有68%的企业部署过SLM，超过45%的企业在部署后实现了成本优化与准确率双提升。

与市场需求所对应的，是服务商侧的动作，“小体量、高性能”正在成为厂商角力的新主战场。

据不完全统计，过去三年，国内厂商“≤10B参数”小模型的发布占比一路从2023年的约23%提升到2025年56%以上，已成为大模型版图里增长最快的细分赛道。

在这****一连串变化背后，一些问题浮出水面：从大模型到小模型，AI 落地经历了怎样的转变？小模型具体应用在哪些场景？企业又是如何将其真正落地的？

一

Agent落地，

需要“刚刚好”的智能****配套

据不完全统计数据显示，2024全年，智能体构建平台相关共有570个中标项目，372个项目公开金额，总金额达23.52亿元。而2025上半年，智能体构建平台相关中标项目数量已达371个，是去年同期的3.5倍，甚至接近去年全年总量的三分之二。

如果说2023年是大模型的狂飙元年，那么2024年，就是Agent被推到舞台中央的一年。当下则是Agent的爆发之年。

它们被寄望于接管企业流程中的重复性任务，例如自动生成周报、客服问答、文档检索、财务分析。对外，它们是客户看得见的智能接口。对内，它们是提升效率的关键工具。

但很快，一个矛盾浮现出来。

一份题为《生成式AI鸿沟：2025年AI在商业中现状》的报告显示：95%的受访企业称，在生成式AI投资中未获得任何实际回报，仅5%获得了转型回报。

很明显，Agent落地效果与其爆发之势，并不对等。这让业内开始思考，到底是哪里出现了问题。

“主流的AI代理系统普遍采用大型语言模型（LLM）与企业需求并不匹配。”在英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文中，这一观点被提出。

一个事实是，在理想化的演示场景里，GPT-4可以一口气写出一份营销方案，也能跨多个步骤完成复杂推理。但企业真正的落地需求往往更朴素。比如客服Agent只需回答我的账单在哪儿、怎么退货；文档Agent更多是做摘要、整理重点；财务Agent要做的，是把报销单里的关键信息提取出来。

这些任务的共同点是流程清晰、目标确定、重复性强。它们并不需要一个能写诗、能讲故事的大脑，而需要一个记得住流程、干活稳的助手。

于是问题来了，如果用大模型去驱动这些Agent，效果可能是“杀鸡用牛刀”。大模型虽然强大，却未必是Agent最合适的引擎。

根据一家互联网大厂的测试，GPT-4驱动的客服Agent，一天10万次调用，API费用接近40万元人民币，一个月就是上千万。而换成7B左右的小模型，成本下降了90%以上。比如阿里发布的Qwen2.5-Coder-7B，在代码生成场景里，比上一代大模型****更稳定，且推理成本下降了70%以上。

此外大模型一次推理往往需要2-3秒，甚至更久。但在金融交易或客服场景里，2秒的延迟就可能带来投诉或风险。相比之下，小模型可以在500毫秒内返回结果。就像腾讯HunyuanLite-6B在多轮工具调用场景下成功率达92%，平均响应时间不到大模型的一半。

很多Agent需要处理企业的敏感数据，比如用户身份信息、医疗记录、财务数据。大模型多数依赖云端调用，数据必须上传到外部服务器。百度推出的ERNIELite-3B，就可以直接集成到政务知识问答场景中，本地化部署后避免了数据外泄。

所以，无论是从成本、速度还是数据隐私安全方面来看，推动Agent落地方面，小模型都更为“合算”。

从《Small Language Models are the Future of Agentic AI》研究来看，这种趋势已经在大量开源Agent项目中得到了验证。数据显示，在MetaGPT、Open Operato、Cradler等案例中，高达40%-70%的调用，其实只需要SLM就可以顺利完成。

大模型像是超级大脑，适合解决开放性、复杂性的问题；但Agent更多是执行型角色，它们要的是稳定、快速、可控的小脑。

于是，小模型在2024年迅速蹿红。它们的火，并非因为比大模型更先进，而是因为Agent作为AI落地的主要形态，正好需要小模型这种“刚刚好的智能”。

这，才是小模型崛起的底层逻辑。

二

“小模型≠取代大模型”

那么，小模型的落地究竟怎么样呢？

其实，小模型的特性，让其在一些场景里显现出足够的“性价比”。不过，即使如此，也没有人断言“小模型能完全取代大模型”。

目前来看，小模型落地的典型场景，都是“流程清晰、重复性强、对隐私和成本敏感”的业务。

例如客服与文档分类等标准化流程任务。美国基贷服务商Mr.Cooper和TD Bank等企业，通过中型甚至小型模型，对客服通话内容进行分类、摘要或预测用户需求。这样既节省成本，又提升效率。

还有金融/法律等高合规要求领域，McKinsey报告指出，SLM在法律、金融、医疗等行业因专用领域训练、更高解释性，更受青睐。这些行业的Agent需要精确、合规，不适合依赖模糊的通用泛化能力。

此外还有边缘计算与实时应用，在智能制造、IoT、手机App等环境，设备资源有限，但要求响应即时。像NVIDIA在工厂端部署的小模型，推理延迟低、带宽消耗少；在手机端，如SlimLM系列在GalaxyS24上部署文档摘要、问答，运行流畅又省成本。

总的来说，对于预算敏感、合规要求高、边缘部署需求强、有一定技术团队的企业而言，这不失为最优选择。

值得注意的是，如果想把小模型用得和大模型一样好，并不简单，且小模型并不适用于所有场景和企业。

首先从模型本身来看，小模型的泛化能力远不如大模型，遇到长尾问题更容易答非所问。要补齐能力，需要做蒸馏、RAG、工具调用，但这对工程化要求高。

其次在数据层，小模型高度依赖高质量样本。例如金融行业尝试训练客服小模型，发现原始语料几百万条，但清洗后可用的不到10%，可能会导致模型效果不稳定。

还有系统集成层，小模型需要和知识库、API、流程系统对接，拼装起来才算一个完整Agent。很多企业在这一环掉链子，比如检索模块准确率不高，导致小模型回答跑偏。

更大的难题在于，从大模型转向小模型的沉没成本。

一组数据显示，2024年LLMAPI服务市场规模约56亿美元，但同期用于LLM托管的云基础设施投资激增至570亿美元，是市场规模的10倍。这种投资不仅是服务器、GPU集群硬件，还包括配套工具链、团队能力，一旦转向SLM，这些前期投入的沉没成本会成为企业的顾虑，导致即便SLM更经济，也不愿轻易调整现有架构，根本换不动。

总结来看，**小模型的核心价值不是替代，而是补位。**它解决的是性价比和合规可控问题，而不是全面超越大模型。小模型落地的门槛在企业工程化能力。能否做好数据清洗、系统集成、模型协作，决定小模型到底能不能跑得稳。

产业转向也不会一蹴而就。巨头和企业在大模型上的沉没成本，意味着小模型的普及不会是颠覆，而是渐进地与大模型形成混合架构。

三

中国产业AI，

进入“大模型+小模型”时代

对于企业而言，究竟如何转型？

在具身智能领域，机器人往往有一个“大脑”和一个“小脑”。大脑做规划，小脑执行动作。今天企业部署AIAgent，也逐渐走向类似的架构。

一个类似案例发生在国某家TOP3的保险公司内部的理赔中心，公司自研的一款3B级模型，其经过细致微调，被精准地训练在OCR字段提取、行业术语分类、以及跨系统的字段匹配三大任务上。这套“小而专”的系统，让日常的理赔处理趋近于零人工干预。

不过，在一些更复杂的场景中，比如识别异常票据、预警潜在欺诈行为等高风险环节，则通过调用大模型的API来提升判断的准确性和灵活性。

这样的“小模型+大模型”的协同模式，正在成为越来越多企业选择AI落地时的标准答案。其不仅提高了稳定性，也让企业得以控制核心流程在本地运行，避免过度依赖API与云端。

那么，对于企业而言，具体应该怎么部署？多大规模才是“刚刚好”？这则需要“因人而异”。

当下来看，1B-3B模型主要部署在移动端、边缘设备、嵌入式终端，用于文档总结、OCR、现场问询。例如石化行业的设备检修系统，用2.5B模型实现语音识别+常规故障排查。

7B-9B模型是中大型企业私有化部署的主力。金融、电信、医疗等行业普遍选择7B模型进行定制微调，集成在CRM、ERP、知识库问答等核心系统中。字节跳动、阿里在内部就有多个7B模型挂载在本地GPU或混合云架构中。

30B+模型仅用于特定、复杂的场景。比如战略报告撰写、法律判决建议、跨业务理解等需要跨知识推理的任务。部署场景受限于成本与工程复杂性。

目前，这场“小模型基础设施战”已经悄然打响。

可以看到的是，厂商们逐渐开始连推理框架、量化压缩、微调流程都一并打包给企业。

例如，阿里Qwen-Agent提供文档问答、结构化填表、财报解析的模块化插件，企业按需即插即用；腾讯混元Lite+私有部署SaaS中台，让小模型调优门槛大幅降低，一些中型B端企业已实现无需MLOps团队即可部署；百度ERNIELite政务套件，针对本地合规需求优化模型权限与日志审计功能。

海外厂商也动作频频，微软Phi-3发布时，不仅提供模型，还提供完整推理工具和端到端调试流程；英伟达的TensorRT-LLM+NIM服务，提供模型压缩、LoRA微调、部署封装一条龙服务，客户只需选择场景即可配置；Hugging Face Transformers Agents项目，直接把SLM变成微服务化的“任务组件”，让小模型成为模块化智能的原子单元。

更重要的是，开源社区也在主动推动标准化和行业化适配。DeepSeek开源的医疗问答小模型在不少私立医院试点测试；MiniCPM在教育领域内测中已集成至作业点评系统；中文RAG框架Langboat和LaWGPT专注构建政法场景的基础小模型生态。

在这些推动下，小模型不再是“降配版大模型”，而是具有完整生态、能独立跑业务流程的AI基础设施。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

从大模型叙事到“小模型时代”：2025年中国产业AI求解“真落地”