news 2026/6/23 2:44:01

导航成本与复杂性:思维混合 LLM 级联揭示了高效部署大语言模型的路径

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
导航成本与复杂性:思维混合 LLM 级联揭示了高效部署大语言模型的路径

原文:towardsdatascience.com/navigating-cost-complexity-mixture-of-thought-llm-cascades-illuminate-a-path-to-efficient-large-23291d1eda41?source=collection_archive---------5-----------------------#2024-03-06

https://medium.com/@yuval_domino?source=post_page---byline--23291d1eda41--------------------------------https://towardsdatascience.com/?source=post_page---byline--23291d1eda41-------------------------------- Yuval Zukerman

·发布于Towards Data Science ·5 分钟阅读·2024 年 3 月 6 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/535098db554b3f659cfd241166a5b1b7.png

图片来源:Joshua Sortino 在Unsplash

如果我告诉你,在不牺牲准确性的情况下,你可以节省 60%或更多的 LLM API 开销,你会相信吗?令人惊讶的是,现在你可以。

大型语言模型(LLM)现在已经成为我们日常生活的一部分。公司利用这项技术来自动化流程、改善客户体验、开发更好的产品、节省开支等。

托管自己的 LLM 非常具有挑战性。它们提供了广泛的功能,但运行成本通常很高。它们通常需要复杂的基础设施和大量数据。成本和复杂性是你使用提示工程的原因。你甚至可能使用检索增强生成(RAG)来改善上下文并减少幻觉。通过这两种技术,你将 LLM 的运行工作卸载给像 OpenAI、Cohere 或 Google 这样的公司。然而,将 LLM 的应用扩展到新的使用场景,尤其是使用最新的强大模型,可能会产生一个之前没有预料到的新成本。较弱的模型可能更便宜,但你能信任它们回答复杂的问题吗?现在,新的研究展示了如何节省开支,并获得与强大模型相媲美,甚至更好的 LLM 结果。

了解 LLM 级联

在追求降低 LLM 成本的过程中,研究人员转向了 LLM 级联的概念。在黑暗时代,也就是 ChatGPT 推出之前,谷歌和多伦多大学的一个团队定义了这个术语,指的是利用概率计算,通过多个 LLM 获得最佳结果的程序。

最近,FrugalGPT 论文将级联定义为将用户查询依次发送给一系列 LLM,从较弱到较强,直到答案足够好为止。FrugalGPT 级联使用专门的模型来确定何时答案达到了质量阈值,足够好。

一篇来自乔治梅森大学、微软和弗吉尼亚理工大学的最新论文《‘基于思维混合表示的低成本推理的大型语言模型级联’》提供了一种替代方案:一种可以判断答案是否足够好的方法,而无需微调另一个模型。

思维混合 LLM 级联

与使用多个 LLM 不同,‘思维混合’(MoT)推理只使用两个——GPT 3.5 Turbo 和 GPT 4。前者被认为是‘较弱’的 LLM,而后者则是‘较强’的 LLM。作者利用 LLM 的‘答案一致性’来判断 LLM 的回答是否足够好。当 LLM 对类似提示给出一致的回答时,说明它对答案有信心。因此,当较弱的 LLM 的回答一致时,就不需要调用较强的 LLM。相反,当 LLM 缺乏信心时,它们会给出不一致的回答。这时,就需要更强的 LLM 来回答提示。(注:你也可以选择任何较弱/较强的 LLM 组合。)

这些提示本身使用少量示例上下文提示,以提高 LLM 回答质量。这样的提示通过提供类似问题和答案的示例来引导 LLM 的回应。

为了改进模型推理并简化一致性测量,研究人员通过‘混合’两种提示技术,提出了一种新的推理任务提示方法:

论文还介绍了两种确定答案一致性的方法:

由于投票方法需要多个提示,因此当有预算来指导阈值时,它可能更为适用。

结论:思维混合帮助你节省成本

让我们看看 MoT 技术节省了多少成本,以及它对答案准确性的影响。

研究人员使用以下公式来计算提示成本:

结果非常显著:

在内部托管和管理大型语言模型(LLMs)带来了显著的挑战。它们带来了复杂性、高成本,并且需要大量的基础设施和数据资源。因此,对于希望利用 LLM 广泛能力的组织来说,LLM 呈现出实质性的障碍。这可能促使你转向托管的 LLM。然而,这种方法在扩展到新的应用场景时,往往给公司带来预料之外的成本增加和预算挑战。当整合最新的强大模型时,这一点尤为明显。为了避免这种命运,你面临一个新的困境:你能信任较弱且更实惠的模型吗?你能克服它们在处理复杂问题时的准确性顾虑吗?

LLM 级联与思维混合(MoT)提供了两项重要的进展:

  1. 相较于仅使用最新模型,能够实现显著的成本节省。

  2. 与最新模型相当的可验证结果。

这一突破为组织提供了一种实用且高效的方法,在 LLM 的强大能力与有效管理成本之间找到微妙的平衡。

Domino 的工作人员软件工程师 Subir Mansukhani 为这篇文章做出了贡献。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 1:26:14

GPEN微服务架构设计:RESTful接口封装实践

GPEN微服务架构设计:RESTful接口封装实践 1. 为什么需要把GPEN变成一个可调用的服务 你有没有遇到过这样的场景:团队里设计师在用GPEN修复老照片,产品经理想把它集成进App的用户头像上传流程,而运维同学却在反复手动打开网页、上…

作者头像 李华
网站建设 2026/6/15 7:47:14

Qwen3-ASR-1.7B加速技术:使用.accelerate库优化推理

Qwen3-ASR-1.7B加速技术:使用.accelerate库优化推理 1. 为什么需要加速语音识别推理 你有没有试过用Qwen3-ASR-1.7B处理一段十分钟的会议录音?可能等了快两分钟才看到结果。这在实际工作中显然不太现实——我们不是在做学术实验,而是要让模…

作者头像 李华
网站建设 2026/6/15 15:32:37

无需网络!万象熔炉Anything XL本地图像生成全攻略

无需网络!万象熔炉Anything XL本地图像生成全攻略 1. 为什么你需要一个“完全离线”的AI绘画工具? 你有没有过这样的经历: 正想用AI画一张角色设定图,结果网络卡顿、模型加载失败; 担心上传的提示词被记录&#xff0…

作者头像 李华
网站建设 2026/6/15 18:53:39

图片旋转判断镜像免配置:开箱即用Jupyter+预装依赖一键启动

图片旋转判断镜像免配置:开箱即用Jupyter预装依赖一键启动 1. 这个镜像能帮你解决什么实际问题? 你有没有遇到过这样的情况:一批手机拍的照片,有的横着、有的竖着、有的倒着,上传到系统后全乱了?或者做图…

作者头像 李华
网站建设 2026/6/15 12:22:46

网络安全防护:Qwen3-ASR-1.7B服务的攻击防御方案

网络安全防护:Qwen3-ASR-1.7B服务的攻击防御方案 1. 为什么语音识别服务需要专门的网络安全防护 当我们在会议系统里实时转录发言,在客服平台自动理解用户语音,在教育应用中为学生朗读内容时,背后运行的Qwen3-ASR-1.7B服务正默默…

作者头像 李华