继DeepSeek后，量化巨头九坤推40B开源硬刚Claude 4.5，实测结果却反转-编程实验室

00. 引言

说实话，这两年追开源模型，我的心态已经从最初的“卧槽牛逼”变成了现在的“审美疲劳”。

每周都有新模型号称“拳打GPT，脚踢Claude”，结果实测，翻车的不少。但就在昨天，我在刷推特(X)的时候，看到了一个叫IQuest-Coder-V1的模型。IQuest-Coder 是由中国顶级量化机构九坤投资（Ubiquant）旗下的“至知创新研究院”发布的。

技术报告：
https://github.com/IQuestLab/IQuest-Coder-V1/blob/main/papers/IQuest_Coder_Technical_Report.pdf

项目主页：
https://iquestlab.github.io/

一开始我也没当回事，直到我看到了它的技术报告里，SWE-bench Verified（真实软件工程基准）的得分赫然写着：81.4。

81.4 是什么概念？
这意味着在解决真实的 GitHub Issue（修Bug、加功能）这件事上，这个开源的 40B 模型，数据上已经追平了Claude 3.5 Sonnet甚至Claude 4.5这种“闭源天花板”。

带着“这数据保熟吗”的怀疑，我把它的技术报告（Technical Report）啃了一遍。不得不说，这帮人有点东西。他们不是在无脑堆算力，而是在教模型**“怎么像资深程序员一样思考”**。

今天就带大家扒一扒，这个可能是目前普通人显卡能跑的最强“编程搭子”，到底强在哪？

01. 战绩：开源界的“越级挑战”

先别听我吹，直接看图。

在代码大模型领域，大家公认最难的考试不是 LeetCode 刷题，而是SWE-bench。因为它考的是真实的软件工程：给一个几十万行代码的仓库，给你一个 Issue，让你去定位、修改并通过测试。

（IQuest-Coder-V1 在各项基准测试中对比 Claude 4.5 Sonnet 和其他开源模型的数据，特别是 SWE-bench Verified 那一栏的橙色高亮。）

看到没？IQuest-Coder-V1-40B（特别是 Loop 版本）的柱子，在 SWE-bench Verified 上直接顶到了81.4的位置。在 LiveCodeBench（竞赛编程）上也是第一梯队。

这基本上宣告了：在 40B 这个参数量级，它目前没有对手。甚至可以说是**“开源的价格，闭源的体验”**。

02. 绝招一：Code-Flow，它不再是“死记硬背”

现在的模型（比如 Qwen2.5-Coder），虽然很强，但它们训练时大多看的是静态的代码文件。

这就好比一个学生，只看最后的“标准答案”，却没看过老师在黑板上推导的过程，更不知道这行代码为什么要这么改。

IQuest 团队觉得这不行。于是他们搞了个Code-Flow（代码流）训练法。

原始论文Figure 2：展示模型如何从 Git 提交历史、Diff 数据中学习软件演化过程的架构图。

简单来说，这个模型不仅读代码，它还疯狂学习Commit History（提交记录）。

它看着一个功能是怎么从无到有，看着 Bug 是怎么被修好的，看着“修改文件 A 的接口，必须同步修改文件 B 的调用”。

这种“偷师”程序员开发过程的路子，让它具备了动态的开发思维。当你让它重构代码时，它脑子里是有“演变逻辑”的，而不是单纯的字符补全。

03. 绝招二：Thinking Path，给AI装上“慢思考”

大家用 ChatGPT 写代码，有没有这种崩溃时刻：任务稍微复杂点，它上来就给你秒回一堆代码，运行全报错，逻辑全是通的其实全是错的。

这是因为模型在“凭直觉”瞎蒙。

IQuest 借鉴了 OpenAI o1 的思路，专门训练了一条Thinking Path（思考路径）。

原始论文Table 5. Performance comparison on Code Reasoning Evaluation.（展示 Thinking 版本在复杂推理任务上的优势。）

大家请看这张实测表（Table 5）：在考验硬核逻辑的 LiveCodeBench V6 测试中，开启了‘Thinking Path’（思考模式）的模型，得分从普通版的 46.9 直接暴涨到 80.5！这就是‘慢思考’带来的降维打击。

在这个模式下，模型在写代码前，会强制自己输出一段“内心独白”（Reasoning Trace）。它会先拆解需求、设计方案、甚至预判自己可能会犯的错，想清楚了再动手写代码。

这对我们意味着什么？
意味着当你把复杂的业务逻辑丢给它时，它更像一个Senior Engineer（高级工程师），而不是一个只会 Copy-Paste 的实习生。这种“慢思考”带来的准确率提升，在长程任务中非常明显。

04. 绝招三：Loop 架构，穷人的法拉利

最后聊个比较硬核、但我个人最喜欢的设计：LoopCoder。

大家都知道，模型越聪明，参数就越大，显存要求就越离谱。想在本地跑个 70B 的模型，没两块 3090/4090 根本别想。

IQuest 搞了个“循环”机制。

简单说，就是让模型里的一部分神经网络，在处理复杂逻辑时多转一圈（递归计算）。

核心机制：“转两圈” (Two Fixed Iterations)
LoopCoder 采用了一种循环 Transformer 设计，其中的 Transformer 模块是参数共享的（Shared Parameters），也就是说同一个神经网络模块会被执行两次。

具体的执行逻辑如下：

第一圈（Iteration 1）：打底
- 输入嵌入（Input Embeddings）通过 Transformer 层进行处理。
- 这一步主要用于生成基础的隐藏状态（Hidden States），就像是人看第一遍书，先有个大概印象。
第二圈（Iteration 2）：精读与融合
- 在这一圈，模型会同时计算两种注意力（Attention）：
  - 全局注意力（Global Attention）：第二圈的查询（Query）会去关注第一圈产生的所有键值对（Key-Value pairs）。这就好比带着第二遍的问题，去回看第一遍的记忆。
  - 局部注意力（Local Attention）：仅关注第二圈当前词之前的 Token（为了保持因果性，Causality）。
- 门控机制（Gating Mechanism）：模型通过一个学习到的门控机制，将上述两种注意力的输出结合起来。门控会决定多少信息来自“回顾第一圈（Global）”，多少信息来自“当前的推理（Local）”。

与原版 Loop Transformer 的区别：

论文还特别提到，他们的实现与原始的“Parallel Loop Transformer”不同，他们去掉了 token-shifting 机制，并做了一些针对推理的优化。

Loop 架构通俗解释：

让模型把同一段代码读两遍。第一遍先通读生成全局印象（Global Context），第二遍再结合第一遍的印象进行深度推理（Gating Mechanism）。这就像我们做复杂的阅读理解题，第一遍先扫读全文，第二遍带着问题精读，从而用有限的参数挖掘出更深层的逻辑。

这招很高明。它用相对较小的参数量（部署成本低），配合128k的超长上下文，换来了更强的逻辑处理能力。这就好比一个老师傅，虽然人手不够，但他遇到难题会反复琢磨两遍，效果不比两个人差。

对于咱们这种显存捉襟见肘的个人开发者来说，这就是**“穷人的法拉利”**。

05. 社区风向：是真神还是刷榜？（深扒 Reddit）

文章写到一半，我不得不紧急喊停。

本来看到 81.4 的分数，我和大家一样热血沸腾。但随着这两天首批“吃螃蟹”的大佬们（来自 Redditr/LocalLLaMA和 X）陆续放出实测报告，风向好像变了。

目前看来，这可能并不是我们期待的“下一个 DeepSeek 时刻”，大家可以先散了。为什么？我总结了三个“致命伤”：

第一：慢！慢得离谱！
我们在吹“Loop 架构”精妙的时候，忽略了一个物理定律：循环计算=时间加倍。
X 上的博主@HaohaoHenr56041实测，哪怕是用两块 A100 (80G)这种核弹级显卡，Batch Size 设为 1，它的推理速度也只有可怜的15 tokens/s。
这是什么概念？如果你问它一个复杂问题，它可能要像老牛拉破车一样吐字半天。对于习惯了 DeepSeek 或 Qwen 秒回的我们，这个体验是灾难级的。

第二：严重“偏科”，前端能力堪忧
虽然它在后端逻辑、C语言扫雷、网络安全脚本（如@fahdmirza测试的 Boids 仿真）这种“硬编码”任务上表现尚可，但在现代 Web 开发上似乎“水土不服”。
实测反馈显示，在前端设计领域，它远远落后于 M2.1 或 GLM4.7 这种全能型选手。如果你指望它帮你写个漂亮的 React 页面，可能会失望。

第三：Base 模型“底子”并不厚
抱抱脸（HuggingFace）上的Uncheatable Eval（不可作弊评测）榜单揭了个底：IQuest-Coder 的Base 版本（非 Loop），水平其实也就跟Qwen-14B差不多。
这说明什么？说明那个 40B 的庞大参数和惊人的 Loop 跑分，很大程度上是靠“架构技巧”硬撑起来的，模型本身的“内功”底子并没有 DeepSeek 或者是 Llama 3 那么扎实。

总结

不是“神车”，是辆“概念车！~

纸面数据确实很炸裂，但作为一名“老韭菜”，但现实就是这么冰冷：Benchmarks 高不代表实际体验一定完美。毕竟现在大家都在针对榜单优化。

回到开头的问题：它能平替 Claude 4.5 吗？
目前的结论是：不能。

IQuest-Coder-V1 更像是一辆极其激进的“概念车”。

它的优点：证明了“Loop架构”和“代码演化训练”这条路是通的，上限很高。
它的缺点：极高的推理延迟、不均衡的能力分布，让它目前很难成为你的主力生产力工具。

最终建议：

普通开发者/打工人：别折腾了，继续用 DeepSeek V3 或 Qwen2.5-Coder 32B，那是目前稳稳的幸福。
AI 研究员/极客：依然建议下载玩玩。毕竟这种“拿时间换智商”的架构设计，很有可能是未来模型瘦身的一个重要方向，研究它的Thinking Path输出，依然能给你很多启发。

传送门在此，想亲自验证的兄弟自取（记得备好两块显卡）：
🔗项目主页：https://iquestlab.github.io/

(原本以为是王者归来，结果可能是个偏科天才。让子弹再飞一会儿吧。)