news 2026/6/15 14:55:25

继DeepSeek后,量化巨头九坤推40B开源硬刚Claude 4.5,实测结果却反转

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
继DeepSeek后,量化巨头九坤推40B开源硬刚Claude 4.5,实测结果却反转

00. 引言

说实话,这两年追开源模型,我的心态已经从最初的“卧槽牛逼”变成了现在的“审美疲劳”。

每周都有新模型号称“拳打GPT,脚踢Claude”,结果实测,翻车的不少。但就在昨天,我在刷推特(X)的时候,看到了一个叫IQuest-Coder-V1的模型。IQuest-Coder 是由中国顶级量化机构九坤投资(Ubiquant)旗下的“至知创新研究院”发布的。

技术报告:
https://github.com/IQuestLab/IQuest-Coder-V1/blob/main/papers/IQuest_Coder_Technical_Report.pdf

项目主页:
https://iquestlab.github.io/

一开始我也没当回事,直到我看到了它的技术报告里,SWE-bench Verified(真实软件工程基准)的得分赫然写着:81.4

81.4 是什么概念?
这意味着在解决真实的 GitHub Issue(修Bug、加功能)这件事上,这个开源的 40B 模型,数据上已经追平了Claude 3.5 Sonnet甚至Claude 4.5这种“闭源天花板”。

带着“这数据保熟吗”的怀疑,我把它的技术报告(Technical Report)啃了一遍。不得不说,这帮人有点东西。他们不是在无脑堆算力,而是在教模型**“怎么像资深程序员一样思考”**。

今天就带大家扒一扒,这个可能是目前普通人显卡能跑的最强“编程搭子”,到底强在哪?

01. 战绩:开源界的“越级挑战”

先别听我吹,直接看图。

在代码大模型领域,大家公认最难的考试不是 LeetCode 刷题,而是SWE-bench。因为它考的是真实的软件工程:给一个几十万行代码的仓库,给你一个 Issue,让你去定位、修改并通过测试。


(IQuest-Coder-V1 在各项基准测试中对比 Claude 4.5 Sonnet 和其他开源模型的数据,特别是 SWE-bench Verified 那一栏的橙色高亮。)

看到没?IQuest-Coder-V1-40B(特别是 Loop 版本)的柱子,在 SWE-bench Verified 上直接顶到了81.4的位置。在 LiveCodeBench(竞赛编程)上也是第一梯队。

这基本上宣告了:在 40B 这个参数量级,它目前没有对手。甚至可以说是**“开源的价格,闭源的体验”**。

02. 绝招一:Code-Flow,它不再是“死记硬背”

现在的模型(比如 Qwen2.5-Coder),虽然很强,但它们训练时大多看的是静态的代码文件

这就好比一个学生,只看最后的“标准答案”,却没看过老师在黑板上推导的过程,更不知道这行代码为什么要这么改。

IQuest 团队觉得这不行。于是他们搞了个Code-Flow(代码流)训练法。


原始论文Figure 2:展示模型如何从 Git 提交历史、Diff 数据中学习软件演化过程的架构图。

简单来说,这个模型不仅读代码,它还疯狂学习Commit History(提交记录)

它看着一个功能是怎么从无到有,看着 Bug 是怎么被修好的,看着“修改文件 A 的接口,必须同步修改文件 B 的调用”。

这种“偷师”程序员开发过程的路子,让它具备了动态的开发思维。当你让它重构代码时,它脑子里是有“演变逻辑”的,而不是单纯的字符补全。

03. 绝招二:Thinking Path,给AI装上“慢思考”

大家用 ChatGPT 写代码,有没有这种崩溃时刻:任务稍微复杂点,它上来就给你秒回一堆代码,运行全报错,逻辑全是通的其实全是错的。

这是因为模型在“凭直觉”瞎蒙。

IQuest 借鉴了 OpenAI o1 的思路,专门训练了一条Thinking Path(思考路径)

原始论文Table 5. Performance comparison on Code Reasoning Evaluation.(展示 Thinking 版本在复杂推理任务上的优势。)

大家请看这张实测表(Table 5):在考验硬核逻辑的 LiveCodeBench V6 测试中,开启了‘Thinking Path’(思考模式)的模型,得分从普通版的 46.9 直接暴涨到 80.5!这就是‘慢思考’带来的降维打击。

在这个模式下,模型在写代码前,会强制自己输出一段“内心独白”(Reasoning Trace)。它会先拆解需求、设计方案、甚至预判自己可能会犯的错,想清楚了再动手写代码。

这对我们意味着什么?
意味着当你把复杂的业务逻辑丢给它时,它更像一个Senior Engineer(高级工程师),而不是一个只会 Copy-Paste 的实习生。这种“慢思考”带来的准确率提升,在长程任务中非常明显。

04. 绝招三:Loop 架构,穷人的法拉利

最后聊个比较硬核、但我个人最喜欢的设计:LoopCoder

大家都知道,模型越聪明,参数就越大,显存要求就越离谱。想在本地跑个 70B 的模型,没两块 3090/4090 根本别想。

IQuest 搞了个“循环”机制。

简单说,就是让模型里的一部分神经网络,在处理复杂逻辑时多转一圈(递归计算)。

核心机制:“转两圈” (Two Fixed Iterations)
LoopCoder 采用了一种循环 Transformer 设计,其中的 Transformer 模块是参数共享的(Shared Parameters),也就是说同一个神经网络模块会被执行两次。

具体的执行逻辑如下:

  1. 第一圈(Iteration 1):打底

    • 输入嵌入(Input Embeddings)通过 Transformer 层进行处理。
    • 这一步主要用于生成基础的隐藏状态(Hidden States),就像是人看第一遍书,先有个大概印象。
  2. 第二圈(Iteration 2):精读与融合

    • 在这一圈,模型会同时计算两种注意力(Attention):
      • 全局注意力(Global Attention):第二圈的查询(Query)会去关注第一圈产生的所有键值对(Key-Value pairs)。这就好比带着第二遍的问题,去回看第一遍的记忆。
      • 局部注意力(Local Attention):仅关注第二圈当前词之前的 Token(为了保持因果性,Causality)。
    • 门控机制(Gating Mechanism):模型通过一个学习到的门控机制,将上述两种注意力的输出结合起来。门控会决定多少信息来自“回顾第一圈(Global)”,多少信息来自“当前的推理(Local)”。

与原版 Loop Transformer 的区别:

论文还特别提到,他们的实现与原始的“Parallel Loop Transformer”不同,他们去掉了 token-shifting 机制,并做了一些针对推理的优化。

Loop 架构通俗解释:

让模型把同一段代码读两遍。第一遍先通读生成全局印象(Global Context),第二遍再结合第一遍的印象进行深度推理(Gating Mechanism)。这就像我们做复杂的阅读理解题,第一遍先扫读全文,第二遍带着问题精读,从而用有限的参数挖掘出更深层的逻辑。

这招很高明。它用相对较小的参数量(部署成本低),配合128k的超长上下文,换来了更强的逻辑处理能力。这就好比一个老师傅,虽然人手不够,但他遇到难题会反复琢磨两遍,效果不比两个人差。

对于咱们这种显存捉襟见肘的个人开发者来说,这就是**“穷人的法拉利”**。

05. 社区风向:是真神还是刷榜?(深扒 Reddit)

文章写到一半,我不得不紧急喊停。

本来看到 81.4 的分数,我和大家一样热血沸腾。但随着这两天首批“吃螃蟹”的大佬们(来自 Redditr/LocalLLaMA和 X)陆续放出实测报告,风向好像变了。

目前看来,这可能并不是我们期待的“下一个 DeepSeek 时刻”,大家可以先散了。为什么?我总结了三个“致命伤”:

第一:慢!慢得离谱!
我们在吹“Loop 架构”精妙的时候,忽略了一个物理定律:循环计算=时间加倍。
X 上的博主@HaohaoHenr56041实测,哪怕是用两块 A100 (80G)这种核弹级显卡,Batch Size 设为 1,它的推理速度也只有可怜的15 tokens/s
这是什么概念?如果你问它一个复杂问题,它可能要像老牛拉破车一样吐字半天。对于习惯了 DeepSeek 或 Qwen 秒回的我们,这个体验是灾难级的。

第二:严重“偏科”,前端能力堪忧
虽然它在后端逻辑、C语言扫雷、网络安全脚本(如@fahdmirza测试的 Boids 仿真)这种“硬编码”任务上表现尚可,但在现代 Web 开发上似乎“水土不服”。
实测反馈显示,在前端设计领域,它远远落后于 M2.1 或 GLM4.7 这种全能型选手。如果你指望它帮你写个漂亮的 React 页面,可能会失望。

第三:Base 模型“底子”并不厚
抱抱脸(HuggingFace)上的Uncheatable Eval(不可作弊评测)榜单揭了个底:IQuest-Coder 的Base 版本(非 Loop),水平其实也就跟Qwen-14B差不多。
这说明什么?说明那个 40B 的庞大参数和惊人的 Loop 跑分,很大程度上是靠“架构技巧”硬撑起来的,模型本身的“内功”底子并没有 DeepSeek 或者是 Llama 3 那么扎实。

总结

不是“神车”,是辆“概念车!~

纸面数据确实很炸裂,但作为一名“老韭菜”,但现实就是这么冰冷:Benchmarks 高不代表实际体验一定完美。毕竟现在大家都在针对榜单优化。

回到开头的问题:它能平替 Claude 4.5 吗?
目前的结论是:不能。

IQuest-Coder-V1 更像是一辆极其激进的“概念车”

  • 它的优点:证明了“Loop架构”和“代码演化训练”这条路是通的,上限很高。
  • 它的缺点:极高的推理延迟、不均衡的能力分布,让它目前很难成为你的主力生产力工具。

最终建议:

  • 普通开发者/打工人:别折腾了,继续用 DeepSeek V3 或 Qwen2.5-Coder 32B,那是目前稳稳的幸福。
  • AI 研究员/极客:依然建议下载玩玩。毕竟这种“拿时间换智商”的架构设计,很有可能是未来模型瘦身的一个重要方向,研究它的Thinking Path输出,依然能给你很多启发。

传送门在此,想亲自验证的兄弟自取(记得备好两块显卡):
🔗项目主页:https://iquestlab.github.io/

(原本以为是王者归来,结果可能是个偏科天才。让子弹再飞一会儿吧。)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 14:09:04

导师推荐!2025本科生必用TOP10 AI论文工具测评

导师推荐!2025本科生必用TOP10 AI论文工具测评 2025年本科生学术写作工具测评:为何需要一份精准指南? 在当前AI技术快速发展的背景下,越来越多的本科生开始依赖AI论文工具提升写作效率与质量。然而,面对市场上琳琅满目…

作者头像 李华
网站建设 2026/6/15 13:12:57

信创环境下SpringBoot大文件上传的适配方案交流

广西金融行业银行单位大文件传输解决方案 作为广西金融行业银行单位上市公司项目负责人,我负责的集团金融系统需实现——高安全、强兼容、稳落地、可扩展。结合集团现有系统架构(SpringBoot后端多技术栈前端)与客户严格需求(100G…

作者头像 李华
网站建设 2026/6/15 13:16:21

SpringBoot视频文件分块上传的优化策略讨论

大文件传输系统技术方案调研与实现建议 一、项目背景与需求分析 作为公司前端技术负责人,我负责牵头本次大文件传输系统的技术选型与实现方案。基于客户(政府及集团单位)的严格要求,系统需满足以下核心需求: 功能需求…

作者头像 李华
网站建设 2026/6/15 14:11:32

vue+uniapp+基于微信小程序的高校校园微活动报名系统--论文

文章目录摘要主要技术与实现手段系统设计与实现的思路系统设计方法java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 随着移动互联网的普及,高校校园活动的组织与管理逐渐向数字化、智能化方向发…

作者头像 李华
网站建设 2026/6/15 13:10:09

leetcode 1411(递推)

1411: 给N*3 网格图涂色的方案数我们把满足要求的 type 都写出来,一共有 12 种:010, 012, 020, 021, 101, 102, 120, 121, 201, 202, 210, 212。我们可以把它们分成两类:ABC 类:三个颜色互不相同,一共有 6 种&#xff…

作者头像 李华
网站建设 2026/6/15 12:35:45

Hive与Hadoop生态整合:构建完整大数据平台

Hive与Hadoop生态整合:构建完整大数据平台 关键词:Hive、Hadoop生态、大数据平台、数据仓库、MapReduce、Spark、HBase 摘要:本文将带你走进Hive与Hadoop生态的整合世界。我们会用"大数据工厂"的比喻,从Hive的核心作用讲…

作者头像 李华