版本:LlamaIndex 0.12.x
定位:让 Agent 从炫技 Demo 走向可控生产工具
源码关联:llama_index.core.agent、llama_index.core.workflow、llama_index.core.tools、llama_index.core.callbacks
1. 项目背景
某公司运维团队在第25章 Agent 原型的基础上进行了大规模扩展——给运维 Agent 接入了 20+ 个工具:查询日志、检查服务状态、重启服务、修改配置、清理临时文件、执行 SQL 等。团队满怀信心地让 Agent “试一试生产环境”,结果两周内发生了三次严重事故。
第一次事故:Agent 误删生产日志。凌晨 3 点,Agent 诊断出"磁盘空间不足",调用clean_temp_files工具清理临时文件——但它一并删除了/var/log/app/下正在写日志的活跃文件。日志丢失导致故障原因无法追溯,安全审计中断。根因是工具描述写了"清理临时文件",但 Agent 把app.log.2025-05-24(按日期命名的日志文件)也判定为"可清理的临时文件"。
第二次事故:Agent 死循环耗尽 token。用户问"为什么订单服务间歇超时",Agent 进入"查询日志 → 分析 → 再查详细日志 → 再分