超越谷歌，全球第一！上交AI科学家王者归来，登顶OpenAI MLE-bench-编程实验室

刚刚，由SciMaster团队推出的AI机器学习专家ML-Master 2.0，基于国产开源大模型DeepSeek，在OpenAI权威基准测试MLE-bench中一举击败Google、Meta、微软等国际顶流，刷新全球SOTA，再次登顶！目前该功能已在SciMaster线上平台开放waiting list，欢迎申请体验。

从《三体》中时刻干扰基础物理实验的「智子」，到《2001太空漫游》里具备自主决策能力的HAL，再到阿西莫夫笔下具有推理与科学探索能力的机器人，人类对一个问题的想象由来已久：

如果智能体不再只是工具，而是能够像科学家一样，在复杂环境中长期探索、不断修正假设，科学会发生什么变化？

很长一段时间里，这样的设想更多停留在科学想象中；而随着大模型能力的快速跃迁，它正逐渐演变为一个正在被认真对待的现实技术命题。

越来越多研究者开始意识到，真正的分水岭并不在于AI能否把题「答对」，而在于它能否像科研人员一样，在长期不确定的探索过程中不断修正方向、积累经验，并在反复试错中推动知识本身向前演化。

Google DeepMind推出的AlphaEvolve，试图让AI在长时间的演化过程中不断修正自身策略；
OpenAI提出的Frontier Science，明确将衡量重点放在AI是否能够在真实科研任务中持续工作、反复迭代；
美国甚至启动了号称「AI曼哈顿计划」的Genesis Mission，尝试将AI系统性地嵌入国家级科学研究体系之中。

这些探索路径虽不相同，却共同指向一个核心共识：

真正推动科学进步的AI，不是只会在竞赛中给出标准答案，而是能够在真实科研环境中，面对超长程科研任务时，经受长时间试错、不断自我演化，并在持续迭代中逐步演化出可靠能力。

正是在这样的背景下，AI4AI（AI for AI）逐渐成为一个至关重要的方向：

它既是AI参与科学研究的重要形态之一，更直接关系到AI能否通过自身实践推动能力增长，从而支撑更长期、更复杂的科研任务。

因而，OpenAI所提出的MLE-bench中所聚焦的机器学习工程（Machine Learning Engineering, MLE）任务，恰恰成为AI4AI场景下极为贴切的研究对象。

相比理想化的答题类型任务，真实的MLE科研往往需要在十几个甚至数十小时内，持续经历实验设计、代码实现、调试修正与结果分析等完整闭环，其过程高度依赖长期试错与经验积累。

这也使得MLE-bench成为少数能够真实反映AI是否具备长期科研演化能力的评测基准之一。

由上海交通大学人工智能学院、上海算法创新研究院、深势科技组成的SciMaster团队推出的面向真实机器学习科研任务的自主智能体ML-Master 2.0，就是这样一个专门为「机器学习工程」而生的AI4AI（AI for AI）系统。

结合EigenAI提供的稳定高性能AI基础设施，该智能体基于国产大模型DeepSeek-V3.2-Speciale，在MLE-bench上击败Google，Meta，Microsoft等团队构建的一系列智能体，取得全球第一的成绩。

更重要的是，它已经在多家科技公司与实验室中落地，用于具身智能机器人训练、理论物理模拟与发现等前沿场景。

这一结果不仅是一项榜单排名，更清晰地表明：

在面向真实科研任务、强调长期演化与工程闭环的自主智能体方向上，中国研究者已经具备与国际顶尖团队同台竞争、并实现领先突破的能力。

ML-Master 2.0

为真实机器学习科研而生的自主智能体

在真实的机器学习工程（Machine Learning Engineering, MLE）中，科研并不是一次性「把题做对」。

相反，它往往是一个漫长而反复的过程：

设定实验假设、编写与修改代码、定位bug、分析结果、推翻假设、再重新开始。这样的循环，可能持续几个，甚至数十个小时。

ML-Master 2.0正是围绕这一真实科研场景被系统性设计出来的。

与许多只关注短程推理或单次任务成功的智能体不同，它从设计之初就假定：

没有人类在旁实时纠错；
实验失败是常态而非例外；
真正有价值的能力，来自长期反复试错中的积累。

在保留原有ML-Master探索—利用闭环的基础上，ML-Master 2.0进一步着重在长时间的探索中保持研究方向不跑偏，并且将失败转化为可复用的经验的能力。

这也直接引出了其关键设计理念之一：

科研型智能体必须具备长期认知积累的能力，而不是将上下文视为一次性消耗的推理材料。

超长程自主：能跑代码，更能长期思考

在ML-Master 2.0的设计中，这种能力被明确概括为一个核心概念：

超长程自主（Ultra-Long-Horizon Autonomy）

在MLE场景下，真正的自主性并不等价于更强的代码生成能力，而体现在系统是否能够：

在长达数十小时的探索中持续围绕同一科研目标展开；
从大量失败实验中总结规律，而不是简单重复尝试；
主动避开已经验证无效的技术路径；
将一次任务中获得的经验迁移到后续的新任务中。

换句话说，问题的关键并不在于「上下文够不够长」，而在于：

这些上下文是否能够被持续整理、筛选，并真正沉淀为可复用的认知资产。

以「认知积累」为核心的ML-Master 2.0架构

基于上述思考，ML-Master 2.0构建了一套围绕长期科研探索的整体技术框架。

在这一架构中，上下文不再被视为「用完即丢」的推理输入，而是被建模为一种具有生命周期的认知资产。

随着科研过程不断推进，系统内部的认知逐步发生分化：

Experience（经验）：直接服务于当前决策的即时执行轨迹；
Knowledge（知识）：在同一任务中多次验证后形成的稳定结论；
Wisdom（智慧）：能够跨任务复用的高层策略与认知原型。

为了系统性地管理这一演化过程，ML-Master 2.0引入了层次化认知缓存（Hierarchical Cognitive Caching, HCC）机制。

层次化认知缓存：为长程科研提供记忆支点

从直观层面看，层次化认知缓存并不是简单地「把上下文存得更多」，而是让不同时间尺度的认知各司其职：

即时演化的经验，用于保证当前探索过程的连续性；
阶段性稳定的知识，在同一科研任务中被反复调用；
跨任务沉淀的先验智慧，为新问题提供高质量起点。

在这一机制下，有价值的认知会在探索过程中被不断筛选并逐步提升层级，而噪声信息则会自然被淘汰。

这使得ML-Master 2.0即使在长时间运行中，也能够保持稳定、可控的科研节奏，而不会陷入「上下文爆炸」或「遗忘历史经验」的困境。

ML-Master 2.0重登MLE-bench榜首

在OpenAI MLE-bench的系统评测中，ML-Master 2.0在完全无人工干预的条件下，基于国产Deepseek-V3.2-Speciale开源大模型，取得了56.44%的奖牌率，位列榜单第一，相较于Google等团队的基于闭源模型的智能体提升28.3%。

并且ML-Master 2.0已经开始在真实科研中发挥作用，参与协助理论计算物理以及具身智能等领域的前沿研究。

走向真正的自主AI科学家

ML-Master 2.0的优异成果表明，通过将认知过程视为可积累、可迁移、可演化的资源，并以层次化方式对其进行管理，我们正在接近这样一种智能体：

它不仅能完成一次任务，而是能够在长期探索中，真正成长为一名自主的AI科学家。

在全球AI4Science竞逐加速的今天，我们很高兴看到：

中国团队，正在用中国的开源大模型，参与并引领这一关键范式的转变。

此前，ML-Master的核心代码已经开源，研究者和工程师可以通过GitHub访问并了解其整体设计与实现细节。

与此同时，ML-Master 2.0所代表的这一整套「面向真实科研的自主智能体能力」，也将以产品形态逐步开放。

该能力即将通过SciMaster平台上线，面向机器学习与AI4Science场景提供更完整、更稳定的使用体验。

目前该功能开放了Waiting List阶段，感兴趣的研究者与工程团队可以在SciMaster主页通过「SciMaster的朋友圈」提前申请体验资格。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。