news 2026/6/15 16:12:31

大模型榜单周报(2025/12/27)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型榜单周报(2025/12/27)

1. 本周概览

本周大模型领域持续涌现创新成果,数学、编程和多模态能力均出现显著进展。字节推出数学模型Seed Prover 1.5,在国际数学奥林匹克竞赛中取得金牌线成绩,而智谱AI开源GLM-4.7在多项评测中超越GPT-5.1。MiniMax的M2.1编码模型以10B激活参数创下多语言软件工程能力新高,北航提出的代码模型Scaling Laws为最优数据配比提供理论基础。

2. 重点关注事件

  • 字节发布数学模型Seed Prover 1.5,在16.5小时内解决IMO 2025前5道题目,失一题获得35分达到金牌线;在北美本科级别数学竞赛Putnam上大幅刷新SOTA成绩
  • 智谱AI开源GLM-4.7,在AIME 25和人类最后考试(HLE)等基准中分数超GPT-5.1;SWE-Bench分数达73.8%(+5.8%),创开源新高
  • MiniMax发布旗舰级Coding & Agent模型M2.1,在Multi-SWE-bench榜单中以仅10B激活参数拿下49.4%成绩,超越Claude Sonnet 4.5等顶尖竞品,拿下全球SOTA
  • 北航提出代码大模型的Scaling Laws,建立区分语言特性的Scaling Laws,并提出数学可解的最优数据配比方案,覆盖0.2B到14B参数规模及高达1T训练数据量,对七种主流语言进行系统性解构

3. 榜单变化

  • OpenRouter模型调用量:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三;小米MiMo-V2-Flash (free)新晋第4名;Gemini 3 Flash Preview新晋第6名;编程调用量方面,Grok Code Fast 1保持第1,KAT-Coder-Pro V1 (free)上升3名至第3,GPT-5.2下降5名至第7位
  • OpenRouter公司市占率:Google保持第1;xAI、Anthropic紧随其后;OpenAI市占率下降7.2%(17.7% → 10.5%)至第4位;DeepSeek份额上升1.8%(7.8% → 9.6%)保持第5名;小米份额占比7.0%,位列第7
  • 大语言模型(Text Arena):gemini-3-flash刷新成绩,超过Grok 4.1 thinking位列第2;ernie-5.0-preview-1203新晋第13名,超过gpt-5.2(评分基于预发布测试)
  • 编程能力榜单(WebDev Arena):glm-4.7新晋第6名,紧跟gemini-3-flash之后(评分基于预发布测试)
  • 编程能力榜单(LiveCodeBench GSO Leaderboard):Gemini-3-Flash新晋第8名,排名在O4-mini之后
  • 图像编辑能力(Artificial Analysis Image Editing Leaderboard):Reve V1新晋第8名,排名在Flux 2 Pro之后
  • 文生图榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview超过Imagen 4 Preview位列第10名
  • 前沿数学能力(EPOCH AI FrontierMath):DeepSeek-V3.2以22.1%得分超过Kimi K2 Thinking位列第14名
  • GAIA榜单:SU Zero-Shuqian Series Pro MAX新晋榜首

4. OpenRouter排行榜

测评类型第一名第二名第三名
模型调用量Grok Code Fast 1Claude Sonnet 4.5Gemini 2.5 Flash
公司市占率GooglexAIAnthropic
编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5

各公司按不同能力领域排名汇总

测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArenaAnthropic、OpenAI、Google
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节
GPQAOpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMathOpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last ExamGoogle、OpenAI、Anthropic
GAIAMicrosoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等

关注我,第一时间掌握更多AI前沿资讯!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:26:59

Restreamer终极部署指南:快速搭建个人流媒体服务器

Restreamer终极部署指南:快速搭建个人流媒体服务器 【免费下载链接】restreamer The Restreamer is a complete streaming server solution for self-hosting. It has a visually appealing user interface and no ongoing license costs. Upload your live stream …

作者头像 李华
网站建设 2026/6/15 14:06:09

如何用TensorFlow实现大规模分布式模型训练?

如何用 TensorFlow 实现大规模分布式模型训练? 在当今 AI 工程实践中,一个常见的挑战是:当推荐系统需要每天处理十亿级用户行为数据时,单张 GPU 的内存和算力根本无法支撑完整模型的训练。这种场景下,工程师面临的核心…

作者头像 李华
网站建设 2026/6/15 14:36:38

SmartDNS双栈优化终极指南:告别网络访问卡顿的完整教程

SmartDNS双栈优化终极指南:告别网络访问卡顿的完整教程 【免费下载链接】smartdns A local DNS server to obtain the fastest website IP for the best Internet experience, support DoT, DoH. 一个本地DNS服务器,获取最快的网站IP,获得最佳…

作者头像 李华
网站建设 2026/5/28 23:46:20

TensorFlow生态系统全景图:工具、模型与部署

TensorFlow生态系统全景图:工具、模型与部署 在当今企业级AI系统的设计中,一个核心挑战始终存在:如何让训练好的模型真正“落地”——不仅要跑得快,还要稳得住、管得了、扩得开。许多团队经历过这样的窘境:实验室里准确…

作者头像 李华
网站建设 2026/6/15 13:13:35

HuLa开源通讯工具:5分钟完成局域网部署的完整指南

HuLa开源通讯工具:5分钟完成局域网部署的完整指南 【免费下载链接】HuLa 🍀 一款基于RustVue3 极致性能的跨平台即时通讯桌面应用,兼容Windows、MacOS、Linux、Android、IOS 项目地址: https://gitcode.com/HuLaSpark/HuLa 在当今数字…

作者头像 李华
网站建设 2026/6/15 13:18:50

风水格局分析:AI+TensorFlow的传统智慧融合

风水格局分析:AITensorFlow的传统智慧融合 在建筑设计与人居环境日益追求科学化、智能化的今天,一种看似古老的话题正悄然焕发新生——风水。这门源自东方的空间哲学,长期以来依赖师徒口传心授和经验直觉,缺乏可量化、可复现的技术…

作者头像 李华