人工智能实战:大模型 SLO 怎么制定?从“感觉系统还行”到可量化的质量、延迟、成本与安全指标
一、问题场景:业务问系统稳不稳定,团队只能说“还可以”
大模型系统上线后,业务方经常会问:
现在系统稳定吗? 效果有没有变好? 成本是否可控? 用户体验怎么样?如果团队只能回答:
感觉还行 最近没太多投诉说明还没有建立 SLO。
传统后端系统有:
可用性 错误率 延迟 吞吐大模型系统也需要类似目标,但指标更复杂。
因为它不仅要看接口可用,还要看:
1. 答案质量 2. 引用可信度 3. 安全拒答 4. 成本 5. 延迟 6. 用户反馈 7. Badcase 率 8. 工具成功率本文解决的问题是:
如何为大模型系统制定 SLO,用可量化指标管理质量、延迟、成本和安全。二、前期如何发现缺少 SLO?
如果出现这些情况: