news 2026/5/25 15:34:07

OpenClaw Tokens消耗优化1-分层路由机制

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenClaw Tokens消耗优化1-分层路由机制

一、背景:大模型 Agent 的“固定成本”困境

一个功能完备的 AI Agent(如 OpenClaw、Claude Code 等)通常会集成大量工具、技能、系统提示和文件。例如:

  • 工具定义 20+ 个(每个工具包含名称、描述、参数结构)

  • 若干技能(Skill)描述文件(SKILL.md

  • 用户历史对话

  • 系统角色设定、记忆、知识库片段

传统做法:每次用户请求,都将所有这些内容打包进上下文,发给大模型。

  • 一个简单问题“今天天气怎么样”可能消耗15000+ Token

  • 其中 90% 以上的 Token 用于传递当前请求根本用不到的工具和上下文

这不仅浪费推理成本,还容易引入干扰,降低大模型响应的准确性和速度。

这就意味着,Skill按照越多,消耗的Tokens越多,养龙虾的成本越高。

那么,Tokens消耗的优化,有个很重要的支撑点,就是在能够充分理解用户的基础上,减少上下文的大小,以便大模型可以精准处理。

二、Viking 分层路由的核心思想

Viking 在 OpenClaw 等 Agent 框架中引入了一个两层路由架构

L0 层:轻量级意图路由器

  • 使用一个本地小模型(如 GLM-4.7-Flash、Llama 3.2 3B 等)

  • 输入:用户当前 query + 极简的对话上下文

  • 输出:路由决策 —— 当前请求需要哪些工具/技能/文件

这个本地模型可以在 CPU 上高效运行,单次推理耗时通常 < 100ms,且几乎零成本

动态上下文组装

  • 系统根据 L0 的输出,从全局工具库、技能库、文件索引中动态拉取相关的资源

  • 将精简后的上下文(仅包含选中的工具描述、必要的技能说明)发送给 L1 层

L1 层:主模型执行

  • 使用高性能大模型(如 GPT-4o、Claude 3.5 Sonnet 等)

  • 在精简上下文中完成最终推理和工具调用

回退机制

  • 如果 L0 路由失败(模型未命中、意图模糊),系统自动回退到全量加载模式,保证功能可用性

三、关键技术细节

1. 工具与技能的索引与路由

Viking 并非简单随机选择工具,而是利用结构化元数据实现精准匹配:

  • 每个工具/技能都有一个能力描述向量(可基于自然语言描述生成)

  • L0 路由器输出一个意图标签或直接输出需要加载的资源 ID 列表

  • 支持基于SKILL.md的显式路由:当某个技能定义了特定的触发关键词,L0 可以直接激活该技能

2. 分层路由的粒度控制

  • 粗粒度:整类工具(例如“文件操作类”、“网络搜索类”)

  • 细粒度:单个工具或特定技能文件

  • 系统可配置路由深度,在节省成本与保留灵活性之间平衡

3. 与 Agent 框架的集成

在 OpenClaw 中,Viking 路由层位于入口网关模型调用层之间:

用户请求 → L0 路由器(本地小模型) → 动态上下文构造器 → L1 大模型 → 响应

整个路由决策对用户透明,仅通过响应速度和成本体现差异。


四、实际收益与数据

根据 OpenClaw 的公开测试数据(简单对话场景):

  • 全量加载:约 15,466 Token / 次

  • Viking 分层路由后:约 1,100 Token / 次

  • 节省比例:约93%

对于复杂任务(涉及多个工具调用),节省比例也在70%–85%之间。

除了 Token 成本,还带来:

  • 响应延迟降低:大模型处理短上下文更快

  • 准确率提升:去掉无关工具后,大模型更不容易误调用

  • 并发能力增强:相同预算可支撑更多请求

五、Viking机制在OpenClaw中的应用

根据目前的搜索结果和社区实践,OpenClaw(“龙虾”)官方版本并没有默认安装 Viking,无论是分层路由系统还是记忆插件。你需要通过以下两种方式之一来获得 Viking 的能力。

目前在 OpenClaw 生态中,主要有两个相关但不同的“Viking”方案:

特性openclaw-viking (分层路由)OpenViking (记忆插件)
核心功能L0/L1 分层路由,动态加载工具/文件,大幅降低 Token 消耗长程记忆管理,虚拟文件系统存储对话历史、用户偏好、技能经验
是否默认安装❌ 否,需要拉取独立分支❌ 否,需要手动安装插件
获取方式git clone https://github.com/adoresever/AGI_Ananans.git,使用其中的26.2.21openclaw-viking目录官方推荐安装命令:curl -fsSL https://raw.githubusercontent.com/volcengine/OpenViking/main/examples/openclaw-memory-plugin/install.sh | bash
版本基础基于 OpenClaw 2026.2.20 修改可集成到任意较新版本的 OpenClaw
实测 Token 节省简单对话场景节省93%(15,466 → 1,021 tokens)-1长程任务场景节省91%(开启原生记忆时)-2-4
适用场景功能丰富的 Agent(工具 > 10 个),高频简单请求需要长期记忆沉淀、跨会话上下文保留的场景

方案一:使用 openclaw-viking 独立分支(分层路由)

如果你想要的是L0/L1 分层路由、按需加载工具/文件这个能力,需要直接使用社区开发者adoresever维护的独立分支。下载

# 1. 克隆包含 Viking 改造的完整仓库 git clone https://github.com/adoresever/AGI_Ananans.git cd AGI_Ananans/26.2.21openclaw-viking # 2. 安装依赖并构建 pnpm install pnpm ui:build # 必须先执行 pnpm build # 3. 首次配置(选择模型 Provider、通道等) pnpm openclaw onboard # 4. 启动服务 pnpm openclaw gateway --verbose

⚠️ 注意:这是一个独立可运行的完整代码副本,不依赖 OpenClaw 上游更新。未来即使官方架构大改,这个版本依然可以独立运行。

验证优化是否生效:在--verbose模式下发送消息,日志中会出现类似[Viking Router] Token 节省: 15466 → 1778 (88.5%)的信息-1。


🧠 方案二:安装 OpenViking 插件(长程记忆)

如果你更关注Agent 的长期记忆能力(跨会话记住偏好、技能使用经验等),火山引擎开源的 OpenViking 是当前社区的主流选择。

快速安装命令(适用于 Linux/macOS/WSL):

curl -fsSL https://raw.githubusercontent.com/volcengine/OpenViking/main/examples/openclaw-memory-plugin/install.sh | bash

安装后,需要配置记忆存储路径并重启 Gateway:

openclaw plugin enable openviking openclaw config set plugin.openviking.memoryPath "~/OpenClaw-LongMemory/memory" openclaw gateway restart

📌 这是插件化集成方式,无需修改 OpenClaw 核心代码,对后续版本升级影响较小-4。


📌 总结

你的需求推荐方案
降低单次对话 Token 消耗,按需加载工具openclaw-viking独立分支
跨会话记住用户偏好、技能使用经验OpenViking插件
两者都想要可以同时使用,两者功能互补,互不冲突

六、适用场景与限制

✅ 最适合的场景

  • 功能丰富的 Agent:工具数量 > 10 个,且不同场景下使用的工具差异明显

  • 高频简单请求:大量对话只需少量工具,如问候、问答、简单查询

  • 成本敏感应用:需要严格控制 API 账单

⚠️ 需要注意

  • L0 模型的质量直接影响路由准确性,若路由错误可能导致主模型缺乏必要工具而失败

  • 冷启动:首次使用某类工具时,路由可能不够精准,需结合用户反馈进行优化

  • 复杂链式任务:当任务需要动态切换工具时,需要 L0 具备一定前瞻性


七、总结:Viking 分层路由的本质

用一次超低成本的本地推理,来避免一次高昂的大模型上下文浪费。

它并不改变大模型本身的能力,而是改变了我们如何为大模型准备上下文的方式。在 Agent 日益复杂、工具链不断膨胀的今天,这种“先路由,后执行”的分层架构正在成为高性能 AI 应用的标准模式之一。。

SophNet,提供DS,GLM,Qwen,MiniMax,Kimi等多家开源大模型,多达50多种,一个API Key可以体验多个顶级大模型。

可以通过https://www.sophnet.com/#?code=4T6VKY注册体验。

私信博主OpenClaw相关资料:

配置方法:https://blog.csdn.net/putiancaijunyu/article/details/159607543?spm=1001.2014.3001.5501

LLM(最新版本)

国内/国外模型厂商模型模型id(对外)规格
国内深度求索DeepSeek V3.2 FastDeepSeek-V3.2-FastSophNet独家供给,DeepSeek满血版 TPS 峰值100以上
国内深度求索DeepSeek V3.2 ExpDeepSeek-V3.2-ExpSophNet算力供给,性能对标火山阿里,超高并发支持
国内深度求索DeepSeek V3.2DeepSeek-V3.2SophNet算力供给,性能对标火山阿里,超高并发支持
国内深度求索DeepSeek R1DeepSeek-R1SophNet算力供给,性能对标火山阿里,超高并发支持
国内深度求索DeepSeek-R1-Distill-Qwen-7BDeepSeek-R1-Distill-Qwen-7BSophNet算力供给,性能对标火山阿里,超高并发支持
国内深度求索DeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-32BSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里QwQ-32BQwQ-32BSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里Qwen3.5-397B-A17BQwen3.5-397B-A17BSophNet算力供给,性能对标火山阿里,超高并发支持
国内月之暗面Kimi-K2.5Kimi-K2.5-global开绿网版本
国内月之暗面Kimi-k2.5Kimi-K2.5SophNet算力供给,性能对标火山阿里,超高并发支持
国内智谱GLM-5GLM-5SophNet算力供给,性能对标火山阿里,超高并发支持
国内MiniMaxMiniMax-M2.5MiniMax-M2.5SophNet算力供给,性能对标火山阿里,超高并发支持
国内字节跳动Seed-OSS-36B-InstructSeed-OSS-36B-InstructSophNet算力供给,性能对标火山阿里,超高并发支持
国内小米MiMo-V2-FlashMiMo-V2-FlashSophNet算力供给,性能对标火山阿里,超高并发支持
海外openaiGPT-OSS-120BGPT-OSS-120BSophNet算力供给,性能对标火山阿里,超高并发支持
国内美团LongCat-Flash-ChatLongCat-Flash-ChatSophNet算力供给,性能对标火山阿里,超高并发支持

视觉模型(最新版本)

国内/国外模型厂商模型模型id(对外)规格
国内阿里Qwen3-VL-235B-A22B-InstructQwen3-VL-235B-A22B-InstructSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里Qwen2.5-VL-7B-InstructQwen2.5-VL-7B-InstructSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里Qwen2.5-VL-72B-InstructQwen2.5-VL-72B-InstructSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里Qwen2.5-VL-32B-InstructQwen2.5-VL-32B-InstructSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里Qwen2-VL-7B-InstructQwen2-VL-7B-InstructSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里Qwen2-VL-72B-InstructQwen2-VL-72B-InstructSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里qwen-image-editQwen-Image-Edit-2509SophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里Qwen-ImageQwen-ImageSophNet算力供给,性能对标火山阿里,超高并发支持
国内阿里Z-Image-TurboZ-Image-TurboSophNet算力供给,性能对标火山阿里,超高并发支持
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/4 8:15:01

解放双手:多平台网课自动化学习效率工具全攻略

解放双手&#xff1a;多平台网课自动化学习效率工具全攻略 【免费下载链接】auto-play-course 简单好用的刷课脚本[支持平台:职教云,智慧职教,资源库] 项目地址: https://gitcode.com/gh_mirrors/hc/auto-play-course 你是否曾遇到这样的困境&#xff1a;面对堆积如山的…

作者头像 李华
网站建设 2026/4/4 8:14:59

500+格式通解:UniExtract2全能文件提取工具深度指南

500格式通解&#xff1a;UniExtract2全能文件提取工具深度指南 【免费下载链接】UniExtract2 Universal Extractor 2 is a tool to extract files from any type of archive or installer. 项目地址: https://gitcode.com/gh_mirrors/un/UniExtract2 UniExtract2是一款专…

作者头像 李华
网站建设 2026/4/7 16:33:08

DDrawCompat:如何在Windows 11上轻松解决老游戏兼容性问题?

DDrawCompat&#xff1a;如何在Windows 11上轻松解决老游戏兼容性问题&#xff1f; 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_m…

作者头像 李华
网站建设 2026/4/7 7:37:14

Real-ESRGAN-GUI:让模糊图像重获新生的AI超分辨率神器

Real-ESRGAN-GUI&#xff1a;让模糊图像重获新生的AI超分辨率神器 【免费下载链接】Real-ESRGAN-GUI Lovely Real-ESRGAN / Real-CUGAN GUI Wrapper 项目地址: https://gitcode.com/gh_mirrors/re/Real-ESRGAN-GUI 你是否曾为手机里的老照片模糊不清而苦恼&#xff1f;是…

作者头像 李华
网站建设 2026/4/1 9:53:34

一键启动翻译服务:Hunyuan-MT-7B-WEBUI详细使用教程(附加速链接)

一键启动翻译服务&#xff1a;Hunyuan-MT-7B-WEBUI详细使用教程&#xff08;附加速链接&#xff09; 1. 为什么选择Hunyuan-MT-7B-WEBUI 在全球化交流日益频繁的今天&#xff0c;语言障碍成为许多企业和个人面临的现实挑战。传统翻译工具要么准确度不足&#xff0c;要么部署复…

作者头像 李华