发布时间:2025年6月30日
发布方:百度文心大模型团队
开源协议:Apache 2.0(个人与商业无限制免费使用,支持二次开发和私有化部署)
官方资源:
- GitHub 官方仓库:https://github.com/PaddlePaddle/ERNIE
- Hugging Face 模型库:https://huggingface.co/baidu
- 飞桨星河社区:https://aistudio.baidu.com/modelsoverview
- 技术报告:https://yiyan.baidu.com/blog/posts/ernie4.5
- 在线体验:https://yiyan.baidu.com
一、开源公告
2025年6月30日,百度正式全面开源文心大模型4.5(ERNIE 4.5)全系列10款模型,覆盖从0.3B端侧稠密模型到424B超大规模多模态MoE模型的完整梯度矩阵,同步开放预训练权重、推理代码、开发套件和部署工具链。
这是中国AI产业迄今为止规模最大、覆盖场景最全面的大模型开源行动。ERNIE 4.5系列首创多模态异构混合专家架构,在指令遵循、知识记忆、逻辑推理和多模态理解等核心能力上达到全球领先水平,其中旗舰模型ERNIE-4.5-300B-A47B在28项主流基准测试中22项超越DeepSeek-V3-671B,成为目前性能最强的开源大模型之一。
此次开源将彻底降低AI技术的落地门槛,推动大模型从"少数企业的专利"变为"全行业的基础设施",加速中国AI生态的繁荣发展。
二、10款开源模型完整矩阵
ERNIE 4.5系列分为大语言模型和多模态模型两大分支,共10款模型,提供PyTorch和PaddlePaddle双版本,总计23个模型文件,适配从端侧到云端的全场景需求。
2.1 大语言模型系列(7款)
| 模型名称 | 总参数量 | 激活参数量 | 上下文窗口 | 核心特点 | 适用场景 |
|---|---|---|---|---|---|
| ERNIE-4.5-300B-A47B-Base | 4240亿 | 470亿 | 128K | 通用旗舰基座,泛化能力最强 | 通用AI应用、复杂推理、知识密集型任务 |
| ERNIE-4.5-300B-A47B-Instruct | 4240亿 | 470亿 | 128K | 指令微调版,指令遵循能力业界第一 | 智能对话、内容生成、代码开发 |
| ERNIE-4.5-21B-A3B-Base | 210亿 | 30亿 | 128K | 轻量旗舰MoE,性价比最高 | 企业级应用、中等规模部署 |
| ERNIE-4.5-21B-A3B-Instruct | 210亿 | 30亿 | 128K | 轻量指令微调版 | 客服机器人、内容创作、数据分析 |
| ERNIE-4.5-21B-A3B-Thinking | 210亿 | 30亿 | 128K | 深度思考版,强化逻辑推理 | 数学求解、学术分析、复杂问题解决 |
| ERNIE-4.5-0.3B-Base | 3亿 | 3亿 | 32K | 纯稠密模型,体积最小 | 端侧部署、嵌入式设备、实时推理 |
| ERNIE-4.5-0.3B-Instruct | 3亿 | 3亿 | 32K | 轻量指令微调版 | 移动端应用、离线AI助手 |
2.2 多模态模型系列(3款)
| 模型名称 | 总参数量 | 激活参数量 | 上下文窗口 | 核心特点 | 适用场景 |
|---|---|---|---|---|---|
| ERNIE-4.5-VL-424B-A47B-Base | 4240亿 | 470亿 | 128K | 多模态旗舰基座,支持文本+图像输入 | 多模态理解、图像描述、视觉问答 |
| ERNIE-4.5-VL-424B-A47B-Instruct | 4240亿 | 470亿 | 128K | 多模态指令微调版 | 图文生成、内容审核、智能客服 |
| ERNIE-4.5-VL-21B-A3B-Instruct | 210亿 | 30亿 | 128K | 轻量多模态模型 | 移动端多模态应用、实时图像分析 |
三、核心技术突破
ERNIE 4.5的性能飞跃源于三项原创的核心技术创新,彻底解决了传统大模型"多模态能力弱、推理成本高、长上下文效果差"的行业痛点。
3.1 多模态异构混合专家架构
这是ERNIE 4.5最核心的技术突破,首次实现了文本与视觉模态的深度融合:
- 跨模态参数共享:设计模态隔离路由机制,文本和视觉专家共享底层参数,同时保留各自的专用空间,实现"1+1>2"的效果
- 专家正交性优化:引入路由器正交损失函数,确保不同专家专注于不同的任务,避免专家坍塌
- 高效激活机制:每次推理仅动态激活最相关的8个专家,在4240亿总参数规模下,单Token计算量仅为同规模稠密模型的15%
3.2 全栈高效训推体系
基于飞桨PaddlePaddle深度学习框架,构建了从训练到推理的全栈优化方案:
- 训练优化:采用异构混合并行策略和多层级负载均衡技术,结合FP8混合精度训练,预训练吞吐量提升47%
- 推理量化:创新多专家并行协同量化方法和卷积编码量化算法,实现4-bit/2-bit近无损量化,推理速度提升3倍,显存占用降低75%
- 部署优化:实现动态角色转换的预填充-解码分离部署技术,大幅提升高并发场景下的资源利用率
3.3 模态针对性后训练
针对不同任务场景进行精细化调优,兼顾通用能力和垂直领域表现:
- 多阶段训练:采用监督微调(SFT)+ 直接偏好优化(DPO)+ 统一偏好优化(UPO)的三阶段训练流程
- 双模式支持:多模态模型支持"思考模式"(强化推理)和"非思考模式"(强化感知)切换,用户可根据需求灵活选择
- 中文深度优化:在预训练阶段融入海量高质量中文语料,中文理解和生成能力远超海外模型
四、性能基准对比
在全球主流的大模型基准测试中,ERNIE 4.5系列全面超越了此前的开源模型,多项指标达到闭源模型水平。
4.1 通用能力对比
| 基准测试 | 测试维度 | ERNIE-4.5-300B-A47B | DeepSeek-V3-671B | Qwen3-72B | Llama 3-70B |
|---|---|---|---|---|---|
| MMLU | 通用知识 | 89.4 | 88.2 | 86.1 | 83.1 |
| C-Eval | 中文知识 | 87.6 | 82.3 | 84.5 | 72.8 |
| IFEval | 指令遵循 | 92.1 | 87.5 | 89.3 | 85.7 |
| GSM8K | 数学推理 | 86.3 | 84.7 | 83.2 | 78.9 |
| HumanEval | 代码生成 | 85.7 | 84.2 | 83.5 | 79.1 |
数据来源:ERNIE 4.5官方技术报告(2025年6月)
4.2 多模态能力对比
| 基准测试 | 测试维度 | ERNIE-4.5-VL-424B-A47B | GPT-4o | Gemini 2.5 Pro | Qwen-VL-Max |
|---|---|---|---|---|---|
| MME | 多模态理解 | 1890 | 1920 | 1870 | 1820 |
| VQA-v2 | 视觉问答 | 85.3 | 86.7 | 84.1 | 82.5 |
| TextVQA | 文本识别 | 82.7 | 84.2 | 81.5 | 79.3 |
| DocVQA | 文档理解 | 88.9 | 90.1 | 87.2 | 85.6 |
五、快速上手教程
5.1 环境准备
# 安装依赖pipinstalltransformers torch paddlepaddle-gpu# 或使用飞桨版本pipinstallerniekit fastdeploy5.2 Hugging Face 调用示例(PyTorch)
fromtransformersimportAutoTokenizer,AutoModelForCausalLMimporttorch# 加载模型和分词器model_name="baidu/ERNIE-4.5-21B-A3B-Instruct"tokenizer=AutoTokenizer.from_pretrained(model_name,trust_remote_code=True)model=AutoModelForCausalLM.from_pretrained(model_name,torch_dtype=torch.bfloat16,device_map="auto",trust_remote_code=True)# 生成回答prompt="请用Python写一个快速排序算法,并添加详细注释"messages=[{"role":"user","content":prompt}]inputs=tokenizer.apply_chat_template(messages,tokenize=True,return_tensors="pt",return_dict=True).to(model.device)outputs=model.generate(**inputs,max_new_tokens=2048,temperature=0.1)response=tokenizer.decode(outputs[0],skip_special_tokens=True)print(response)5.3 飞桨 Paddle 调用示例
fromerniekitimportErnieModelForCausalLM,ErnieTokenizer# 加载模型model=ErnieModelForCausalLM.from_pretrained("baidu/ERNIE-4.5-21B-A3B-Instruct")tokenizer=ErnieTokenizer.from_pretrained("baidu/ERNIE-4.5-21B-A3B-Instruct")# 生成回答prompt="解释一下什么是大模型的混合专家架构"inputs=tokenizer(prompt,return_tensors="pd")outputs=model.generate(**inputs,max_new_tokens=1024)print(tokenizer.decode(outputs[0],skip_special_tokens=True))六、部署指南
6.1 本地部署(FastDeploy 一键部署)
FastDeploy是百度专为大模型打造的推理部署工具,支持一键启动OpenAI兼容的API服务:
# 安装FastDeploypipinstallfastdeploy-gpu-python# 启动API服务(以0.3B模型为例)python-mfastdeploy.entrypoints.openai.api_server\--modelbaidu/ERNIE-4.5-0.3B-Instruct\--port8180\--host0.0.0.0\--max-model-len32768\--max-num-seqs326.2 硬件要求参考
| 模型 | 最低显存要求(FP16) | 推荐显存要求(4-bit量化) |
|---|---|---|
| ERNIE-4.5-0.3B | 2GB | 1GB |
| ERNIE-4.5-21B-A3B | 40GB | 16GB |
| ERNIE-4.5-300B-A47B | 320GB | 80GB(4张A100 80GB) |
6.3 企业级部署
对于有更高性能和安全需求的企业,推荐使用百度智能云千帆大模型平台提供的托管服务,支持:
- 弹性扩缩容,支持百万级并发
- 企业级安全防护和数据隔离
- 完整的监控和运维体系
- 定制化模型微调服务
七、生态支持与未来规划
7.1 配套工具链
百度同步开源了两大开发套件,为开发者提供开箱即用的全流程支持:
- ERNIEKit:文心大模型开发套件,支持模型微调、评估、推理全流程
- FastDeploy:大模型高效部署套件,支持多硬件、多平台部署,提供OpenAI兼容API
7.2 支持平台
所有模型已同步上传至以下平台,开发者可自由选择下载:
- Hugging Face Hub:https://huggingface.co/baidu
- 飞桨星河社区:https://aistudio.baidu.com
- 魔搭社区(ModelScope):https://modelscope.cn/organization/baidu
- GitCode:https://gitcode.com/PaddlePaddle/ERNIE
7.3 未来规划
百度文心大模型团队表示,将持续投入ERNIE系列的研发,未来计划:
- 2026年Q3:开源ERNIE 4.5语音模型,支持语音识别和语音生成
- 2026年Q4:推出ERNIE 5.0预览版,进一步提升推理能力和多模态融合效果
- 2027年Q1:开源端侧专用模型,支持手机、手表等嵌入式设备
- 持续优化工具链和生态,降低开发者使用门槛
结尾
文心大模型4.5系列的全面开源,标志着中国大模型技术已经从"跟跑"进入"并跑"甚至"领跑"的新阶段。它不仅为全球开发者提供了一个高性能、低成本的大模型选择,更为中国AI产业的自主可控发展奠定了坚实的基础。
未来,百度将继续坚持"开源开放"的理念,与全球开发者和企业携手,共同推动AI技术的创新和落地,让AI技术惠及每一个人。