近年来,随着大语言模型(LLMs)的广泛应用,聊天机器人、搜索引擎、新闻推荐等基于Web的应用在规模和复杂度上持续增长。因此,在线模型选择问题愈发受到关注——我们需要在多样化的模型集合中选出最优模型,同时平衡任务收益与探索成本。
企业常常面临这样的决策
- 是采用成本高昂的API调用式大语言模型,
- 还是本地微调一个小型大语言模型,在成本与性能之间权衡。
传统的模型选择方法:往往会对每一个候选模型进行评估,再做出选择。
- 随着大语言模型训练与微调成本的不断攀升,这种方式已经变得不切实际。传统的“全评估再选”模式,在大模型时代已经从“贵”变成了“根本做不起”
- 将过多资源投入到性能不佳的模型探索中,也是不明智的。盲目探索性能差的模型,会把有限的算力和时间白白浪费掉。
利用在线老虎机(bandit)算法来处理模型选择中的“探索-利用”权衡问题
- 模型的性能不是固定不变的,而是先越变越好,最后稳定下来的过程。
- 而这个方法往往忽略了模型在迭代微调过程中性能会逐渐提升并趋于收敛的趋势,这会导致预测精度下降,最终选出次优的模型。
- 把“性能先升后收敛”这个趋势考虑进去,不会因为模型一开始表现差就直接放弃,而是会预测它未来的提升,从而做出更准确的选择。
本文提出了一种时间递增的老虎机算法 TI-UCB
- 它能够有效预测模型因训练或微调带来的性能提升,并高效平衡模型