小模型驱动大智能：NVIDIA 新研究实现 2.5 倍效率提升，成本直降 70%-编程实验室

小模型驱动大智能：NVIDIA 新研究实现 2.5 倍效率提升，成本直降 70%

论文标题：ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

作者团队：英伟达、香港大学

发布时间：2025 年 11 月 27 日

👉 一键直达论文

👉Lab4AI 大模型实验室论文阅读

大语言模型在解决深度复杂问题时面临计算成本高、推理能力不足的挑战；现有工具代理多依赖单一强大模型，缺乏对“工具编排”的系统性优化，导致效率与成本难以平衡。

这篇论文解决的是，训练一个小型语言模型（Orchestrator）作为编排器，动态协调多种工具（基础工具、专业 LLMs、通用 LLMs），通过强化学习优化任务完成效果。

论文核心是训练一个小型语言模型作为“编排器”，通过强化学习让小模型学会 “何时调用、调用什么、如何组合” 工具，实现 “以小控大、降本增效”。

该方法将多工具任务建模为马尔可夫决策过程，编排器通过“多轮滚动”交替执行“推理”和“工具调用”，逐步完成任务。

奖励设计包含三重目标：结果正确性（任务是否解决）、效率（成本与延迟）、用户偏好（工具选择倾向），引导模型平衡性能与成本，适配用户需求。

为支持训练，论文还提出了 ToolScale 数据集，通过模拟工具环境与生成多样化任务，解决端到端 RL 训练的数据稀缺问题。

计算机辅助攻击与犯罪：防范与调查指南 1. 电子邮件基础 1.1 电子邮件客户端与服务器电子邮件客户端消息由两部分组成：包含邮件来源信息的头部，以及包含邮件内容和/或附件的正文。常见的电子邮件客户端软件有 Outlook、Pine 和 Eudora 等。客户端通过连接电子邮件服务器来…

李华

基于MATLAB的DTMF信号仿真系统带GUI界面，双音多频按键机指尖刚触碰到座机键盘的金属按键，"嘟——"的一声长鸣瞬间把人拉回九十年代。这种承载着青春记忆的按键音背后，藏着个有趣的通信原理——DTMF双音多频技术。今天我们就在MAT…

李华

网络流量与拥塞控制：原理、策略与优化在当今数字化的时代，网络已经成为人们生活和工作中不可或缺的一部分。随着网络应用的不断增加和数据流量的急剧增长，网络拥塞问题日益突出。严重的拥塞会导致数据包延迟和丢失，影响网络的性能和用户体验。因此，流量和拥塞控制成为了…

李华

第一章：Open-AutoGLM遇上phoneagent，开启移动自动化新范式当大语言模型驱动的自动化框架 Open-AutoGLM 与轻量级移动端代理 phoneagent 相结合，移动设备的智能化操作迈入全新阶段。这一融合不仅实现了自然语言指令到设备动作的端到端映射&…

李华

第一章：为什么顶尖团队都在用Open-AutoGLM？在人工智能快速演进的当下，顶尖技术团队不断寻求更高效、更灵活的大模型开发工具。Open-AutoGLM 作为一款开源自动化大语言模型框架，正迅速成为行业首选。它不仅支持零代码任务配置&…

李华

要：如果你关注AI技术，一定被这三个高频词刷过屏：RAG、LangChain、Agent。它们听起来都很厉害，但到底是什么关系？是三种并列的技术？还是一个套一个的组件？今天，我们用最直白的方式讲清…

李华