news 2026/5/1 10:03:52

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,性能对标 Gemini 2.5 Pro

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,性能对标 Gemini 2.5 Pro
Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。

2 月 11 日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。

Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。

(图说:Ming-Flash-Omni-2.0 在视觉语言理解、语音可控生成、图像生成与编辑等核心领域实测表现均已达到开源领先水准)

业内普遍认为,多模态大模型最终会走向更统一的架构,让不同模态与任务实现更深层协同。但现实是,“全模态”模型往往很难同时做到通用与专精:在特定单项能力上,开源模型往往不及专用模型。蚂蚁集团在全模态方向已持续投入多年,Ming-Omni系列正是在这一背景下持续演进:早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新2.0版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。

此次将 Ming-Flash-Omni 2.0 开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。

Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标全面优化。视觉方面,融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力;音频方面,实现语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力;图像方面,增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。

百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 9:08:07

人类画了100年的脑图,AI仅用几小时!还绘制出新脑区

近期,一个来自加州大学旧金山分校的神经科学团队提出了一种新的机器学习算法——CellTransformer,仅花费几个小时就完成了对5只小鼠大脑图谱的分类和绘制工作。好消息,AI也可以帮科学家画脑图了!近期,一个来自加州大学…

作者头像 李华
网站建设 2026/4/26 6:33:11

导师推荐 10 个 AI论文软件:本科生毕业论文写作与科研写作全测评

在当前学术研究日益数字化的背景下,本科生在撰写毕业论文和进行科研写作时,常常面临内容构思困难、文献检索效率低、格式排版繁琐等问题。为了帮助学生更高效地完成学术任务,笔者基于2026年的实测数据与用户反馈,对市面上主流的AI…

作者头像 李华
网站建设 2026/5/1 9:20:54

磁盘写入全揭秘:从保存到落盘的8个关键步骤

你有没有遇到过这种事: 文档刚点“保存”,电脑突然蓝屏/断电/死机;重启一看——有时文件居然还在,有时却回到上一个版本,甚至变成 0 字节。你当场就想问一句:我到底保存了没? 这事的根源就在于: 你以为“保存=写进硬盘”,但在现代操作系统里,保存通常只是“先写进内…

作者头像 李华
网站建设 2026/5/1 3:52:12

军工项目如何通过CKEditor插件实现Word公式精准粘贴?

项目需求分析与技术选型记录 (广东某集团公司项目负责人,2023年X月X日) 一、需求拆解与核心目标 客户提出在现有企业网站后台管理系统的文章发布模块中增加以下功能: Word粘贴功能:支持从Word复制内容后粘贴到CKEdi…

作者头像 李华
网站建设 2026/5/1 3:52:11

医院HIS系统如何解决CKEditor粘贴Word公式格式丢失问题?

Word一键转存CMS升级大冒险 📅 开发日志:2023年11月15日 大家好!我是广西某高校软件工程专业的"码农小白",正在为我的CMS新闻管理系统做一个超酷的升级——让Word内容能一键粘贴并自动上传图片!下面记录我…

作者头像 李华