news 2026/5/9 21:16:40

大模型也能「千人千面」?UIUC团队提出个性化LLM路由新框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型也能「千人千面」?UIUC团队提出个性化LLM路由新框架

随着大语言模型(LLM)的快速发展,我们正进入一个“模型选择”本身变得越来越复杂的时代。

一方面,大模型数量不断增加,不同模型在性能、推理成本以及回答风格上差异显著。

另一方面,在真实应用场景中,用户之间的偏好并不相同:有的用户更看重准确性,有的更关注成本,还有的更在意表达风格是否清晰、简洁或富有真情实感。

然而,现有的大多数 LLM 路由方法,仍然停留在统一的数值目标假设之下:要么只优化性能,要么只考虑成本,或者在二者之间设定阈值进行判断。这使得这些方法在多用户场景中难以适配,也无法真正做到“以用户为中心”。

针对这一问题,来自 UIUC 的研究团队在 TMLR 发表了最新工作 PersonalizedRouter,提出了一种面向多用户场景的个性化大模型路由框架,尝试学习用户隐藏的偏好特征,解决“不同用户该选最合适的大模型”的问题。

论文标题:

PersonalizedRouter: Personalized LLM Routing via Graph-based User Preference Modeling

论文地址:

https://arxiv.org/abs/2511.16883

代码地址:

https://github.com/ulab-uiuc/PersonalizedRouter

方法核心:基于用户隐藏偏好特征,进行LLM选择

PersonalizedRouter 的核心思想是:不再假设用户偏好是已知或固定的,而是从历史交互数据中,学习每个用户的隐式偏好,并据此为每一次查询选择最合适的大模型。

与以往基于向量匹配或规则判断的方法不同,PersonalizedRouter 从结构化建模的角度重新思考了 LLM 路由问题。

研究者将用户交互数据转化为一个异构图,其中包含四类节点:用户(User)任务(Task)查询(Query)大模型(LLM),不同类型节点之间通过边连接,例如用户–任务、任务–查询、查询–LLM 等。

其中,查询–LLM 边是整个路由决策的关键,边的特征来自用户的历史选择结果(如性能–成本加权权衡数值,或由 LLM-as-a-Judge 选出的最佳回答),它直接对应了在某一次交互中,这个查询最终由哪个 LLM 执行。

在图构建完成后,通过在该图上使用图神经网络(GNN),经过多轮传播后,每一类节点都会得到一个高维嵌入向量。

其中用户节点的嵌入编码了该用户在历史交互中体现出的偏好特征,因此模型可以在消息传递过程中逐步学习到不同用户在性能、成本和回答风格上潜在的偏好差异。

最终,LLM 选择被统一建模为一个链接预测问题。模型会将用户、任务和查询三个节点的最终嵌入进行融合,得到的联合嵌入用于刻画当前用户在某个任务下查询的需求。

接下来,该联合嵌入将会分别与每一个候选 LLM 的嵌入进行匹配计算。最终得到的分数用户衡量哪一个模型最可能是“这个用户最满意的选择”。

两种模拟策略,系统评估「个性化能力」

在多用户 LLM 路由场景下,真实用户偏好既复杂又难以直接获取。如果仅在单一评价指标下进行评估,很容易错误估计模型的实际水平。

因此为了系统性地评估不同路由方法在多用户场景下的表现,论文设计了两种模拟评估策略:

1. 多成本-性能权衡模拟

聚焦于性能与推理成本之间的权衡,通过不同权重组合,模拟从性能优先到节省成本优先等多种用户类型。

论文通过线性组合构造一个统一的 reward 函数,reward 函数由回答的性能和成本约束,其中性能与成本分别拥有不同权重。

2. LLM-as-a-Judge 模拟

在很多应用场景中,用户更关心 LLM 的回答是否符合自己的阅读和理解习惯,而这类偏好往往难以用传统指标量化。

论文利用额外的大模型作为裁判,根据不同用户画像(如工程师、学生、内容创作者等)来判断哪种回答更符合其偏好,从而模拟选出最适合各个群体的答案。

PersonaRoute-Bench:更大规模的多用户评测基准

为了检验个性化路由在真实系统级别的可扩展性,研究者构建了 PersonaRoute-Bench,将评测从小规模用户推进到更贴近真实应用的千级用户规模。

在这个基准中,研究者围绕两个关键目标进行设计:1)用户偏好分布要足够丰富,减少使用刻板用户风险;2)偏好标注机制更加稳健,减少单一裁判模型引入的偏差。

在多成本-性能权衡模拟路径下,研究者通过采用更细粒度的偏好阈值,将reward 函数形成更连续的偏好值,以模拟真实世界中用户多样性的场景。

在 LLM-as-a-Judge 模拟路径下,研究者采用了三种不同的裁判 LLM,每种裁判 LLM 依次采用两种不同的裁判指令模板进行选择。最终每一个用户画像将在 6 种裁判配置下进行用户偏好模拟。

实验结果:在多种场景下显著优于现有方法

实验结果表明,PersonalizedRouter 在多项关键指标上均显著超过现有主流方法:

如上图所示,在小规模设置(9 名用户、10 个候选 LLM)和 PersonaRoute-Bench 大规模设置场景下,PersonalizedRouter 能够在两种设置下同时取得优势。

进一步对比小规模与大规模实验可以发现 PersonalizedRouter 在用户数量从个位数扩展到千级时,性能在保持领先的情况下,相比较最佳表现仅下降约 5%。

如上图所示,在引入新用户或新模型的场景下,PersonalizedRouter表现出强大的泛化性,仍可达到完整训练模型大部分的性能。

如上图所示,考虑到模拟用户不能完全模拟真实用户行为分布,研究者在一个Human-as-a-Judge小规模真实用户交互数据集上进行了实验,PersonalizedRouter 在真实用户偏好下的仍具强大的能力。

总结:“以用户为中心”的路由愈发重要

在大模型能力特长不断分化、用户需求持续变化的背景下,这项工作表明,LLM 路由不应只是性能或成本的权衡,而应从用户出发,能够学习并适配用户差异。

通过将用户偏好视为可学习的隐藏变量,并在多用户、大规模场景下验证其可扩展性,PersonalizedRouter 展示了一种更接近真实系统需求的路由范式,也为构建以用户为中心的多模型协同系统提供了可行路径。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 11:08:41

虚拟串口软件在工业自动化模拟中的实践:项目应用

虚拟串口软件在工业自动化模拟中的实战应用:从开发阻塞到并行验证的跃迁 你有没有经历过这样的场景? 项目启动,HMI组态画面画了一半,SCADA系统逻辑写得七七八八,结果一问:“PLC什么时候能到位?…

作者头像 李华
网站建设 2026/5/2 12:27:32

GLM-4.6V-Flash-WEB响应时间优化:批处理与缓存策略应用

GLM-4.6V-Flash-WEB响应时间优化:批处理与缓存策略应用 在当前AI服务向实时化、轻量化演进的趋势下,多模态大模型的部署不再仅仅追求能力边界,更关注“能否用得上”——尤其是在Web场景中,用户对交互延迟的容忍度极低,…

作者头像 李华
网站建设 2026/5/3 8:55:33

AI如何帮你自动完成JS URL编码?快马平台实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个JavaScript工具函数,能够智能判断输入内容是否需要URL编码,并自动选择使用encodeURI或encodeURIComponent方法。要求:1. 函数名为smart…

作者头像 李华
网站建设 2026/5/3 14:29:49

【AI+教育】别再逼自己 “多维思考” 了:你的焦虑,全因思维没开关(附赠思维模型100例图解)

不是你不够聪明,是这个时代在强迫你“同时思考” 一、我们到底是从什么时候开始“思维焦虑”的? 你有没有发现一个奇怪的现象: 学校说:要有创新思维 公司说:要有批判性思维 课程说:要有系统思维 管理书说:要有工程思维 心理学又告诉你:要有成长型思维 于是很多人…

作者头像 李华
网站建设 2026/5/3 19:01:54

AI助力微信小程序开发:WECHATAPPEX智能代码生成实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个微信小程序项目,包含用户登录、商品展示和购物车功能。使用WECHATAPPEX作为核心关键词,要求:1) 实现微信授权登录功能;2) 商…

作者头像 李华
网站建设 2026/5/1 7:21:06

XUnity Auto Translator 游戏翻译革命:让语言不再是游戏障碍

XUnity Auto Translator 游戏翻译革命:让语言不再是游戏障碍 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 在全球游戏市场日益多元化的今天,你是否曾经遇到过这样的困扰&#xf…

作者头像 李华