news 2026/5/1 5:10:44

大模型榜单周报(2026/01/31)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型榜单周报(2026/01/31)

1. 本周概览

本周大模型行业迎来多项重要进展,百度文心5.0正式发布,通义千问开源Qwen3-TTS语音模型,Kimi发布并开源K2.5模型。榜单方面变化剧烈,MiMo V2 Flash (free)遭遇断崖式下跌,DeepSeek V3.2强势跃升,编程领域竞争格局发生重大变化,Grok Code Fast 1领先优势萎缩,新模型Kimi K2.5强势闯入前五。

2. 重点关注事件

  • 百度于1.24日正式发布文心5.0,搭载2.4万亿参数原生全模态架构,在40余项基准测试中领跑国际第一梯队,被称为"最强文科生"
  • 通义千问于1.26开源Qwen3-TTS全系列语音模型,支持3秒克隆与音色创造,延迟低至97ms,开源1.7B(极致性能)和0.6B(轻量高效)两个版本,满足从云端到边缘的多样化部署需求;同时Qwen3-Max-Thinking上线,引入自适应工具调用与测试时扩展技术两大核心创新
  • DeepSeek于1.27更新OCR模型,DeepSeek-OCR 2通过引入DeepEncoder V2架构,实现视觉编码从「固定扫描」向「语义推理」的范式转变,将原本基于CLIP的编码器替换为轻量级语言模型(Qwen2-500M),并引入具有因果注意力机制的「因果流查询」
  • Kimi于1.27发布并开源K2.5模型,该模型为原生多模态架构设计,支持最高256,000 tokens的标准上下文长度,支持视觉与文本输入、思考与非思考模式、对话与Agent任务,并进一步提升开源模型的代码水平,尤其在前端开发领域表现突出
  • MiniMax于1.29发布MiniMax Music 2.5,在「段落级强控制」与「物理级高保真」两大技术难题上实现突破,辅以华语优化及专业混音,让格莱美级音乐创作无需录音棚即可实现

3. 榜单变化

  • OpenRouter整体模型调用量方面,MiMo V2 Flash (free)遭遇断崖式下跌,调用量从582B tokens骤降至280B,排名由第2滑落至第9,周增长率从+18%转为-52%;DeepSeek V3.2实现强势跃升,调用量从364B增至464B,排名从第7升至第4,周增长率由4%大幅提升至27%;Claude Opus 4.5由高速增长转为明显回调,调用量从395B降至339B,周增长率从+35%转为-14%;Gemini 2.5 Pro跌出前十榜单,其上周413B的调用量本周被gpt-oss-120b以272B进入前十取代;Gemini 2.5 Flash稳步复苏,排名从第8上升至第5,调用量从364B增至394B,周增长率由-3%转正为+8%
  • OpenRouter模型市占率方面,DeepSeek调用量从上周457B增至本周553B,市场占比由8.0%提升至9.4%;Google主导地位略有削弱,调用量从1.48T降至1.4T,占比由26.0%下滑至24.0%;Xiaomi遭遇断崖式下跌,从第6名(441B,7.8%)直接跌出前十榜单;MoonshotAI强势入局,新进前十并直接占据第7位,获得203B调用量(3.5%份额);长尾市场爆发式增长,Others类别调用量从349B激增至598B,占比由6.1%飙升至10.2%
  • OpenRouter模型吞吐量方面,GPT-OSS-120B(Groq提供)具有超强统治力,体现在速度够快+成本可控+规模化验证,速度第2(936 tok/s),成本适中($0.35/M),请求量最高,可能是当前最主流的生产环境选择;Qwen3 32B(Cerebras提供)崛起,速度第3(736 tok/s),圆点第二大,显示国产模型可能在国际开发者工具链中已占核心位置
  • OpenRouter编程调用量方面,Grok Code Fast 1领先优势急剧萎缩,调用量占比由22.8%大幅下滑至16.4%;MiniMax M2.1实现跨越式增长,调用量从56.8B翻倍至115B,占比由4.0%大幅提升至7.4%;Kimi K2.5强势闯入前五,以139B tokens和8.9%占比新晋榜单第4位;GPT-5系列双模型重回前十,GPT-5.2与GPT-5.2-Codex分别以61.4B和54.5B tokens调用量占据第8、第9位;上周三大热门模型集体跌出前十,MiMo V2 Flash (free)、Devstral 2 2512 (free)与DeepSeek V3.2分别从上周第5、第7、第9位滑落至十名之外
  • 图像编辑能力榜单(Text to Image Arena):hunyuan-image-3.0-instruct新上榜单,评分基于预发布测试,可能会随着公开发布后社区反馈和投票的变化而调整
  • 图像编辑能力榜单(Artificial Analysis Image Editing Leaderboard):Reve V1分数超过FLUX.2 [pro],二者排名易位,分别排名8、9
  • 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):FLUX.2 [dev] Turbo分数超过ImagineArt 1.5 Preview,二者排名易位,分别排名10、11
  • GAIA榜单:Shawn Agent更新v3.1,排名第7,得分达89.37%

4. 排行榜

测评类型第一名第二名第三名
模型调用量Claude Sonnet 4.5Gemini 3 Flash PreviewGrok Code Fast 1
公司市占率GoogleAnthropicOpenAI
模型速度gpt-oss-safeguard-20bgpt-oss-120bQwen3 32B
编程模型调用量Grok Code Fast 1Claude Sonnet 4.5Claude Opus 4.5
各公司按不同能力领域排名汇总
测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面
编程能力 Code ArenaAnthropic、OpenAI、Google、智谱、MiniMax
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、腾讯、Black Forest Labs、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、Fal
GPQAOpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMathOpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI
Humanity's Last ExamGoogle、OpenAI、Anthropic
GAIAJoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等

关注我,第一时间掌握更多AI前沿资讯!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 1:36:04

计算机毕业设计springboot考研社区网站 SpringBoot驱动的考研互助交流平台设计与实现 基于SpringBoot的考研信息共享与二手交易网站开发

计算机毕业设计springboot考研社区网站mk9kd(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。 考研热度连年攀升,考生对资讯、资料、经验交流的即时性与集中度要求越来…

作者头像 李华
网站建设 2026/4/27 13:51:08

深度解析:智能体系统成熟后,组织面临的隐蔽风险——“创新高原期”

摘要: 随着大模型驱动的智能体从单一工具演变为高度自洽的内部协同生态,企业正面临一种隐蔽的风险——“生态位侵占”。当AI能够为95%的常规问题提供“足够好”的答案时,人类员工的认知空间被极度挤压,导致探索性动力的萎缩与颠覆性思维的断裂。本文旨在探讨AI生态如何通过…

作者头像 李华
网站建设 2026/5/1 1:38:12

行业地震的深层解读:量子技术重构测试工程师职业边界

近日某头部科技企业AI测试团队全员转型量子开发的突发新闻,暴露出测试领域面临的技术迭代危机与机遇。本文结合量子计算发展现状与测试工程师核心能力迁移路径,为从业者提供前瞻性应对策略。 一、量子技术颠覆传统测试范式的三大挑战 算法验证复杂度跃升…

作者头像 李华
网站建设 2026/4/30 19:56:50

12种RAG高级架构与方法一览,助你掌握大模型检索增强生成技术

RAG(检索增强生成) 曾是极其热门的话题之一。而本周非常幸运地看到了一些关于 RAG 的真正令人兴奋的新研究 让我们一起来看看近期出现的 12 种 RAG 高级架构与方法: 1. Mindscape-Aware RAG (MiA-RAG) 全局感知 RAG MiA-RAG 通过首先构建…

作者头像 李华
网站建设 2026/4/30 16:24:34

Spec-kit:用描述生成代码的“施工蓝图工具箱”

想象一下,你是一个经验丰富的产品设计师或建筑师。通常,你需要先撰写一份详尽的、用人类语言描述的产品需求或建筑说明,然后交给工程师或施工队去实现。这个过程容易出现偏差:工程师可能误解了某个细节,或者实现出来的…

作者头像 李华
网站建设 2026/5/1 2:12:34

解锁“叛逆饮”:年轻人捧红的“网红水单”是怎么来的?

叛逆,这届年轻人不再只是叛逆于传统的规则,更是叛逆于“高价的社交仪式”。在2025年的都市夜色中,传统的奶茶店早已不再是唯一的社交场景。取而代之的,是那些在写字楼下便利店门口的“微醺乐园”以及社交媒体上关于“网红水单”的…

作者头像 李华