AI-Researcher：从文献综述到论文写作，如何搭建 AI Agent 科研工作流？-编程实验室

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

作者：雷诺 (新加坡国立大学)
邮箱：leinuo@u.nus.edu

来源：Tang, J., Xia, L., Li, Z., & Huang, C. (2025).AI-Researcher: Autonomous Scientific Innovation. arXiv:2505.18705. Link, PDF, GitHub。

Title: AI-Researcher：从文献综述到论文写作，如何搭建 AI Agent 科研工作流？
Keywords: AI-Agent, 科研自动化, Scientist-Bench, Literature Review, AI 数字人

AI 已经能帮我们读文献、写代码、整理回归表、修改论文，甚至生成论文初稿。但真正的问题并不是「AI 会不会写论文」，而是：我们能否把 AI 组织进一套可复用、可检查、可迭代的科研工作流。
AI-Researcher 的价值，正在于它把科研任务拆解为多个 Agent 分工协作，让 AI 从「会聊天的助手」逐步走向「可监督的科研团队」。

1. 为什么需要 AI-Researcher？

过去两年，很多研究者已经开始把 AI 用进科研流程：让它读文献、总结理论、写代码、修改摘要、整理表格，甚至起草论文。可是，当我们真的尝试把一个完整研究项目交给 AI 时，很快会发现：AI 很强，但并不稳定。

问题不只是 AI 会写错，更在于它往往不知道研究中的关键约束在哪里。

例如，在经管类实证研究中，AI 可能不知道：

数据口径有什么限制；
变量为什么不能直接比较；
某种识别策略在什么条件下才成立；
机制分析是否只是停在表层；
稳健性检验是否真的缓解了内生性担忧；
一篇论文到底应该强调理论机制、识别策略，还是新的经验事实。

所以，AI 很容易写出一篇「像论文」的文本，却未必真正贴合研究问题、数据条件和识别边界。

这也是为什么很多人已经大量使用 AI 辅助研究，却仍然不敢把研究从头到尾完全交给 AI。AI 可以很快给出答案，但如果没有结构化的任务分工、输入约束和评价机制，它也很容易从助手变成一个自信的幻觉制造器。

Tang 等 (2025) 的AI-Researcher: Autonomous Scientific Innovation提供了一个有启发性的回答：AI-Researcher 并不只是让大模型「帮忙写论文」，而是尝试搭建一个端到端的科研自动化系统，让多个 Agent 从文献综述、研究想法生成、算法设计、代码实现、实验验证，一直到论文写作，完成一套相对完整的科研流程。论文摘要明确将其定位为一个覆盖 literature review、hypothesis generation、algorithm implementation 和 publication-ready manuscript preparation 的自主科研系统，并提出 Scientist-Bench 用于评价自动科研系统的研究质量。

这个设想听起来很激进。但它真正有价值的地方，不是宣称「AI 可以替代研究者」，而是提醒我们：

未来更重要的能力，可能不是会不会问 AI 一个问题，而是能不能把 AI 组织进一套可复用、可检查、可迭代的科研工作流。

2. AI-Researcher 的核心思路：不是聊天框，而是科研团队

AI-Researcher 要解决的不是「让 AI 多写几段文字」，而是两个更根本的问题：

如何让 Agent 串起完整科研流程；
如何评价 Agent 生成的研究成果。

传统科研面对的是一个开放、复杂、回报高度不确定的方案空间。研究者不仅要提出假说，还要不断把实验结果、理论逻辑和已有文献放在一起判断：哪些方向值得继续推进？哪些路径应该及时放弃？意外结果是否意味着要调整假说？这些都需要较强的元认知能力。

现有 AI 工具通常只能处理科研流程中的某个局部环节。例如，它可以做文献分析，可以辅助实验设计，也可以润色论文，但很难从假说生成一直串到可发表质量的论文写作。更重要的是，过去也缺少一个标准化 benchmark，用来评价「自主科研系统」到底做得好不好。

AI-Researcher 的核心做法，是把科研任务拆成多个 Agent 和模块协作完成。论文将 AI-Researcher 概括为三个阶段：Literature Review and Idea Generation、New Algorithm Design, Implementation and Validation，以及 Automated Scientific Documentation。

具体来说，它大体包括以下几个部分：

Resource Analyst Agent：负责收集、筛选和分析文献、代码、数据集等研究资源；
Idea Generator：在已有资源基础上提出候选研究方向，并比较不同想法的潜在价值与风险；
Implementation Framework：把研究想法转化为具体方法、代码实现、实验验证和迭代改进；
Documentation Agent：把研究动机、方法、实验结果和结论组织成论文文稿；
Evaluation Agent：从创新性、理论基础、实验充分性、结果分析和写作质量等方面反馈前面的环节。

换句话说，它不是在模拟一个「会聊天的学者」，而是在模拟一个「会分工的科研团队」。

这张图可以概括 AI-Researcher 的基本逻辑：先由 Resource Analyst 整理研究资源并拆解问题，再由 Idea Generator 提出方向，Implementation Framework 完成设计、实现和验证，最后由 Documentation Agent 汇总成论文，并通过 Evaluation Agent 把反馈传回前面的环节。

这里有三个设计理念值得注意。

第一，先拆解，再生成。Resource Analyst Agent 会把复杂研究概念拆成更小的组成部分，并尝试建立理论表述、公式和代码实现之间的对应关系。这样做的好处是减少幻觉：AI 不只是「理解一个概念」，还要说明这个概念如何落到具体实现。

第二，边实现，边验证。Implementation Framework 采用类似「导师-学生」的迭代反馈机制。不同 Agent 不是一次性给出答案，而是在设计、实现、验证和修改之间循环推进。它更像一个小型研究组：有人提出方案，有人执行，有人检查结果，再根据反馈继续调整。

第三，最后写作，而不是一开始就写作。Documentation Agent 的作用不是简单润色，而是把前面产生的研究想法、代码、实验结果和讨论整合成论文文稿。这里的难点不是把结果拼起来，而是保持跨文档一致性和事实准确性，避免写作阶段把前面做过的事情说错、说过头或说散。

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。