news 2026/6/26 2:32:50

推荐系统模型更新方式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
推荐系统模型更新方式

一、全量训练(Full Retraining)

最基础的方式,定期用全量历史数据从头训练一个新模型,训练完成后替换线上模型。

更新周期通常是天级别,比如每天凌晨用过去 N 天的数据训练,早上上线新模型。

优点是模型质量稳定,每次都是在完整数据上训练,不存在增量更新的累积误差。缺点是训练成本高,无法捕获实时的用户行为变化,模型对当天新出现的热点、节假日等时效性事件响应慢。


二、增量训练(Incremental Training)

不从头训练,而是在上一个版本的模型参数基础上,用新增的数据继续训练几个 step 或几个 epoch,然后更新线上模型。

更新周期可以做到小时级别,比如每小时用过去一小时的新样本做增量更新。

优点是训练成本低,时效性比全量训练好。缺点是存在**灾难性遗忘(Catastrophic Forgetting)**的风险,模型在新数据上过拟合,遗忘了历史数据的知识。解决方案是混入一部分历史样本(Experience Replay),或者用较小的学习率做增量更新。


三、流式训练(Streaming / Online Training)

这是时效性最高的方式。样本实时生成,实时输入模型做梯度更新,模型参数持续更新,没有明显的"批次"概念。

技术上通常基于消息队列(Kafka)实现:用户行为实时写入 Kafka → 实时特征拼接 → 实时计算梯度 → 更新参数服务器(PS)上的模型参数。

流式训练的核心挑战:

延迟反馈问题:用户点击是实时的,但转化(下单)可能几小时后才发生。流式训练时点击样本立刻进入训练,但标签(是否转化)还不知道,需要设计延迟标签机制,比如先以点击为正样本训练 CTR,等转化信号到来后再补充训练 CVR,或者用之前讲的 DFM 方案处理延迟反馈。

样本乱序问题:实时流中样本到达顺序不保证,可能出现转化信号比点击信号先到的情况,需要做样本对齐和缓冲。

训练稳定性:流式训练的 batch size 很小(甚至是 1),梯度噪声大,容易不稳定。通常用 mini-batch 缓冲,积累一定量的样本再做更新。

特征穿越风险:实时特征拼接时,如果不小心用了未来信息(比如用了当天的统计特征),会导致线上线下不一致。


四、Embedding 单独流式更新 + 上层网络定期更新

这是工业界最常见的折中方案,把模型分成两部分分别更新:

Embedding 层:参数量大,对时效性敏感(新 item、新用户需要快速学到表示),做流式更新,实时响应新 ID 的出现。

上层网络(MLP、Attention 等):参数量相对小,对时效性不那么敏感,做增量或全量更新,周期是小时或天级别。

这样设计的原因是:Embedding 层的更新是稀疏的(每次只更新出现过的 ID 对应的向量),流式更新成本低;上层网络是稠密更新,流式训练稳定性差,更适合批量更新。


五、双塔模型的特殊更新策略

召回阶段的双塔模型有自己的更新逻辑:

User 塔实时更新:用户行为实时变化,user embedding 需要高频更新,通常做流式或小时级增量更新。

Item 塔离线更新:item 的属性相对稳定,item embedding 可以天级别更新,更新后重新建索引(ANN 索引)。

这样避免了每次 item 更新都要重建全量索引的高成本。


六、模型热更新 vs 冷更新

从上线方式来看还有两种:

冷更新:训练完新模型后,直接替换线上模型,有一个明显的切换时刻。切换瞬间可能出现效果抖动(因为新旧模型的输出分布不同),需要做流量灰度。

热更新:不替换整个模型,而是直接更新参数服务器上的参数值,模型结构不变,参数持续更新。流式训练通常是热更新,没有明显的切换时刻,线上效果更平滑。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 2:31:11

分形几何中的投影测度:填充维数与阿苏阿德维数的理论与应用

1. 项目概述:从“测量”到“维度”的几何探险如果你在分形几何、动力系统或者几何测度论的领域里摸爬滚打过一阵子,大概率会对“维数”这个概念又爱又恨。爱的是,它用一个简洁的数字,刻画了集合的复杂程度和空间占据能力&#xff…

作者头像 李华
网站建设 2026/6/26 2:30:53

如何快速实现Unreal Engine实时音频导入:5个核心优势详解

如何快速实现Unreal Engine实时音频导入:5个核心优势详解 【免费下载链接】RuntimeAudioImporter Runtime Audio Importer plugin for Unreal Engine. Importing audio of various formats at runtime. 项目地址: https://gitcode.com/gh_mirrors/ru/RuntimeAudio…

作者头像 李华
网站建设 2026/6/26 2:28:58

《离散数学》全套PPT课件(华中科技大学)

《离散数学》全套PPT课件(华中科技大学) 课件 内容: 第一章 集合论.ppt 第一章(续) 集合的运算与分类(改).ppt 第二章 二元关系.pptx 第三章:特殊关系 ppt 第四章:函数.ppt 第五章:…

作者头像 李华
网站建设 2026/6/26 2:25:37

理工科论文专项测评:即能同时降低知网重复率和AIGC疑似率,又不改写实验参数、学术术语的降重网站有哪些?

自从高校全面上线 AIGC 人工智能内容检测,理工科毕业生普遍遇到两难困境:单纯降知网查重,AI 痕迹超标被驳回;淡化 AIGC 痕迹,又容易改写错实验数据、公式参数与专业名词,导致论文实验逻辑失真。理工科论文包…

作者头像 李华