继“紧箍咒”之后,我又给AI Agent装了一套“进化系统”
SEO摘要:本文深入解析了流马(Gliding Horse)AI Agent的行为工程系统设计,提出了一套从宪法层、方法论层、执行层到自进化层的四层约束体系。不同于传统Prompt软约束,该系统通过41条行为准则、10+方法论、5级根因回溯引擎和ToolGuard硬阻断,实现了对LLM的代码级可控约束。文章详细拆解了每层的设计原理与协同机制,为构建可靠、可进化的AI Agent系统提供了工程化实践参考。
关键词:AI Agent、行为工程、LLM约束、Agent Harness、根因分析、ToolGuard、自进化系统、Prompt工程、流马、Gliding Horse
之前我写了一篇《认清现实吧,LLM就是个“超级赌场”,而我们需要的是一套“紧箍咒”》,聊了为什么AI需要Harness来约束。那篇文章的核心观点是:LLM本质上是无状态的、弱指令遵守的、会产生幻觉的条件概率文本生成器,我们需要一套工程体系来调教它。
那篇文章聊的是“为什么”,今天这篇聊的是“怎么做”。
我给流马(Gliding Horse)设计了一套行为工程系统,它不是在Prompt里写“你要遵守规则”这种软约束,而是一套从宪法到方法论到硬阻断到自进化的四层体系。打个比方:如果之前的“紧箍咒”是给孙悟空戴上的那个圈,那这套系统就是唐僧的紧箍咒**+天庭的戒律+地府的生死簿+**如来的五指山——从道德劝说到物理镇压,全给你安排上。
一、四层架构:从“讲道理”到“动手”
这套行为工程系统分了四层,每一层有明确的职责和约束力:
简单说:宪法告诉你该做什么,方法论教你怎么做,执行层确保你真做了,进化层分析你做得好不好。四层闭环,从约束到反馈,一个不漏。
二、宪法层:AI的《小学生守则》
宪法层是系统的“基础锚点”。它在系统启动时就加载,包含41条行为准则,覆盖三个维度:
- 感知原则:全量阅读、索引优先、实时确认、5W2H优先、歧义澄清
- 验证原则:自动验证、根因分析、回归验证、自工程完结
- 边界原则:最小权限、风险预警、边界拒绝、任务范围坚守
这些准则不是“建议”,而是“法律”。每条准则可以绑定到零个或多个方法论,形成L3→L2的联动。比如“全量阅读原则”绑定了“索引优先策略方法论”,当Agent准备读文件时,这个方法论就会自动激活。
关键设计:宪法层是软约束(写在提示词里),但它的绑定机制让违反宪法的行为在L2和L1层被硬阻断。所以它既不是“无用的说教”,也不是“粗暴的封禁”,而是一个精巧的分级约束体系。
三、方法论层:给AI装上“条件反射”
如果说宪法是《小学生守则》,那方法论就是“体育课怎么上”、“数学题怎么解”、“考试怎么复习”的具体操作手册。
每个方法论是一个结构化的行为协议,包含:
- 红线项:要警惕的行为(比如“你是不是在偷懒跳过验证?”)
- 反模式:要阻断的行为(比如“没读文件就修改”,直接STOP)
- 说服框架:用权威感、承诺一致、社会认同等心理学原理,让AI更听话
- 激活条件:什么时候触发(特定工具?特定角色?出错时?)
当前内置了10个方法论,比如:
| 方法论 | 一句话解释 | 激活条件 |
|---|---|---|
| 索引优先策略 | 先搜再读,别上来就全量遍历 | 文件搜索工具被调用时 |
| 最小权限协议 | 能读就别写,能查就别改 | Shell/网络工具被调用时 |
| 复杂度诚实评估 | 别为了炫技选复杂方案,别为了省事选简陋方案 | SA/PA做计划时 |
| 系统化调试 | 出错了先定位根因,别盲目重试 | 任务出错时 |
| 完成前验证 | 干完活自己先检查,别把Bug留给下游 | 执行阶段结束时 |
最妙的设计:方法论不是写死在代码里的,而是通过条件激活动态生效的。Agent平时不受影响,只有在触发条件满足时,对应方法论才“醒来”。这避免了把所有规则一股脑塞进Prompt导致的Token浪费和注意力稀释。
四、执行层:AI的“安检门”和“侦探”
执行层是真正“动手”的地方,包含三个核心组件:
1. 根因引擎:AI的“福尔摩斯”
当Agent执行出错时,根因引擎自动启动,执行5级回溯追踪:
错误发生 → L1: 记录症状 → L2: 找到直接调用者 → L3: 检查上下文 → L4: 追查触发事件 → L5: 匹配错误模式 → 根因报告比如Agent调用API失败了,引擎不会简单报“失败了”,而是:
- L1: 错误消息是“connection refused”
- L2: 调用位置是
src/http/client.rs:42 - L3: 当时的上下文是“正在执行定时数据同步”
- L4: 触发事件是“网络在3分钟前断开了”
- L5: 匹配到
network_error模式 → 根因:网络连接失败
然后引擎会生成四层防御建议:
- L1入口校验:在调用前检查网络连通性
- L2业务逻辑:添加重试机制(指数退避)
- L3环境防护:设置连接超时和熔断
- L4可观测性:记录每次调用的延迟和成功率
关键是:如果Agent试图跳过根因分析直接修复,执行层的钩子会直接阻断,并提示“行为准则违反:根因分析未完成就进行修复”。这才是真正的“硬约束”——不是劝你,是拦住你。
2. ToolGuard:AI的“安检门”
ToolGuard在工具调用前后执行拦截。Pre-Injection阶段注入安全提示,Post-Validation阶段检查结果。如果发现异常(比如读取了敏感文件),直接Abort并发送纠正消息。
3. HookManager:生命周期的“关卡”
Agent的每个关键节点(启动、计划创建、工具调用、出错、阶段结束)都有钩子。这些钩子被MethodologyGate和RootCauseEngine挂载,形成完整的执行监控网。
五、自进化层:让系统“越用越聪明”
进化层收集L1和L2的违规数据、根因分析结果、方法论有效性指标,生成健康报告:
系统健康评分: 85.3% 高频违规: 全量遍历 (12次), 无比较方案 (8次) 方法论有效性: ✅ 技能使用方法论 — 95%有效 ⚠️ 索引优先策略 — 62%有效(需调整触发条件)这些报告反馈给AA(决策Agent),让它决定是否调整方法论配置、优化提示词、或者更新宪法绑定。系统不是静态的,而是在每次违规和修正中持续进化。
六、为什么这套体系比“写Prompt”强?
| 维度 | 写Prompt约束 | 行为工程系统 |
|---|---|---|
| 约束力 | 依赖LLM自觉 | L1代码级硬阻断,绕过不了 |
| 覆盖面 | 一次写完,静态不变 | 条件激活,动态适配 |
| 反馈闭环 | 无 | 违规记录→进化分析→策略调整 |
| 可扩展性 | 改Prompt,重试 | 加方法论定义即可,不改代码 |
| 根因追溯 | 靠LLM自己分析 | 5级回溯算法,确定性执行 |
| Token效率 | 所有规则全塞Prompt | 按需激活,不浪费Token |
七、最后说句人话
我见过太多Agent项目,在Prompt里写满了“你必须”、“你应该”、“你不准”。然后Agent该怎么违规还怎么违规,因为LLM本质上是个“赌徒”——它在每个词上都在赌概率,不是在执行规则。
流马的行为工程系统,从一开始就不信LLM的“自觉性”。它用宪法层做道德引导,方法论层做条件反射,执行层做物理阻断,进化层做持续优化。四层协同,把AI从一个“散漫的天才”调教成一个“靠谱的工程师”。
这才是Agent Harness的真正价值——不是让AI更强,而是让AI更可靠。
我这套系统叫 Gliding Horse(流马),所有代码都在 GitHub 上:https://github.com/doiito/gliding_horse
这个系列写了16篇了。从JSON-LD到CPU缓存,从丰田安灯绳到行为工程,每一篇都是我在构建流马过程中的真实设计选择。如果你也在做Agent系统,希望这个系列能让你少走一些弯路。