人工智能实战:大模型降级策略怎么设计?从强模型到小模型、缓存、模板兜底的可靠性方案
一、问题场景:强模型一超时,整个系统都不可用
很多大模型应用一开始只接一个模型:
所有请求 → 强模型例如:
复杂问答 简单分类 JSON 抽取 文本改写 全部用同一个大模型这样开发简单,但线上风险很大:
1. 强模型超时,所有业务不可用 2. 成本高 3. 简单任务浪费大模型 4. 高峰期排队严重 5. 模型供应商故障时没有兜底我遇到过一次线上事故:
主模型接口 P95 从 3s 升到 20s所有功能都变慢,包括本来很简单的:
意图分类 关键词抽取 JSON 修复这些任务完全可以用小模型或规则处理。
本文解决的问题是:
如何设计大模型降级策略,让系统在强模型慢、贵、不可用时,仍然能以可接受质量继续服务。