news 2026/6/13 7:24:45

Gemini 3.1 Pro 96.96 分微弱领先,Claude Opus 4.7 仅差 0.13

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Gemini 3.1 Pro 96.96 分微弱领先,Claude Opus 4.7 仅差 0.13

#Gemini 3.1 Pro #材料约束 #Smoke 轻量评测 #代码执行差距 #模型稳定性

Smoke 今日快测结果显示,Gemini 3.1 Pro 以 96.96 分的 core_overall 位居第一,Claude Opus 4.7 以 96.83 分紧随其后,两者仅差 0.13 分。

顶尖模型的极致接近

两位第一、第二名在代码执行维度均拿到 97.5 分,材料约束上 Gemini 3.1 Pro 96.3 分,Claude Opus 4.7 则为 96 分。公式 0.55×执行 + 0.45×约束 的权重设计,让微小的约束差异直接决定了最终排名。

如此微小的差距,说明顶级模型在这两个核心维度上已进入“同水平竞争”阶段。

GPT-5.5 的明显短板

GPT-5.5 执行 97 分排第三,却因材料约束仅 86.3 分,最终跌至第五。约束维度落后近 10 分,反映其在引用原始材料、避免幻觉方面的控制仍弱于 Gemini 和 Claude。

对比之下,Grok 4 执行 96 分、约束 93.8 分,整体 95.01 分,保持了相对均衡。

中腰部模型的执行瓶颈

DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro 执行分数均不超过 65 分,与头部差距超过 30 分。Qwen3 Max 约束 94.8 分甚至高于 GPT-5.5,却因执行 55 分被大幅拉开。

这再次印证:当前中文模型在代码执行任务上仍存在系统性短板。

需要说明的是,今日为 v6.3 评分口径的首次运行,与此前成绩不构成可比基线,环比变化将在后续同口径评测中恢复呈现。

当执行和约束都接近满分时,0.13 分的差距已不再是偶然,而是模型对材料边界控制的真实差异。

数据来源:赢政指数 (YZ Index) | Run #165 | 查看原始数据

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 7:21:53

将合同管理从“人工密集型”升级为“人机协同型

过去十年,国央企法务部门的核心矛盾一直没有变:合同量每年增长15%-20%,法务编制基本不动。结果是,人越干越累,风险越防越漏。道本科技与DeepSeek的合作,提供了一个明确的解法:不是用AI取代人&am…

作者头像 李华
网站建设 2026/6/13 7:19:42

Python手写梯度下降实现线性回归:从原理到可调试工程代码

1. 这不是教科书里的线性回归,而是你明天就能跑通的梯度下降实战“Machine Learning: Python Linear Regression Estimator Using Gradient Descent”——这个标题乍看像课程大纲里的一行小字,但如果你真把它当作业抄完就扔,那大概率会在调试…

作者头像 李华
网站建设 2026/6/13 7:13:53

海南业绩认定新规:房建3条、市政2条,必须同时满足!合同金额≥招标控制价80%是共同的硬门槛!

海南省住房和城乡建设厅关于进一步明确《关于进一步推进房屋建筑和市政工程招投标制度改革的若干措施(2025年版)》类似工程业绩认定标准的通知各有关单位:为进一步规范招投标市场秩序,防范和整治业绩弄虚作假行为,现将…

作者头像 李华
网站建设 2026/6/13 7:06:52

手把手教你用GD32单片机驱动NCA9555扩展IO(附完整代码与避坑指南)

手把手教你用GD32单片机驱动NCA9555扩展IO(附完整代码与避坑指南)在嵌入式开发中,IO扩展是解决单片机引脚资源不足的常见方案。NCA9555作为一款16位I2C接口的IO扩展芯片,以其简单易用、成本低廉的特点受到广泛欢迎。本文将详细介绍…

作者头像 李华
网站建设 2026/6/13 7:05:59

C盘大文件怎么搬到D盘或其他分区?从定位到迁移的完整操作

C盘空间快满了,大文件和文件夹怎么转移到其他分区 C 盘告急时,真正压空间的往往是几个体积庞大的视频、安装包或项目备份文件夹,而不是零散的临时垃圾。从系统盘把这些"大块头"整体转移到 D 盘或其他分区,是最直接也最…

作者头像 李华