多任务推荐模型怎么选？从Shared-Bottom到MMOE，一次讲清演进与实战选型-编程实验室

多任务推荐模型技术选型指南：从架构演进到业务适配

在电商推荐、信息流分发等场景中，平台往往需要同时优化点击率（CTR）、转化率（CVR）、观看时长等多个目标。传统单任务模型需要为每个目标单独训练模型，不仅计算资源消耗大，还忽略了任务间的关联性。多任务学习（MTL）通过共享表示和参数，让模型在学习主任务时能够利用其他相关任务的信息，已成为工业界推荐系统的标配技术。

1. 多任务模型的演进脉络与技术原理

1.1 基础架构：Shared-Bottom 模型

早期的多任务模型采用硬参数共享（Hard Parameter Sharing）架构，通常表现为共享底层+任务专属塔层的设计：

class SharedBottom(torch.nn.Module): def __init__(self, input_dim, shared_dims, task_dims): super().__init__() # 共享底层网络 self.shared_bottom = MLP(input_dim, hidden_dims=shared_dims) # 任务专属塔层 self.tower_ctr = MLP(shared_dims[-1], hidden_dims=task_dims) self.tower_cvr = MLP(shared_dims[-1], hidden_dims=task_dims)

这种架构虽然简单高效，但当任务相关性较低时，会出现两个典型问题：

负迁移：任务间的知识干扰导致模型性能下降
跷跷板效应：优化一个任务会导致另一个任务指标恶化

1.2 进阶架构：OMoE 与 MMoE

为克服Shared-Bottom的局限，研究者提出了基于混合专家（Mixture of Experts）的改进方案：

架构类型	专家共享方式	门控机制	适用场景
OMoE	所有任务共享专家池	全局门控网络	任务相关性高
MMoE	专家池共享但门控独立	每个任务独立门控	任务差异大

MMoE的核心创新在于：

多专家网络：每个专家学习不同的特征表示
任务专属门控：动态调整专家组合权重

# MMoE门控计算示例 def forward(self, x): expert_outputs = [expert(x) for expert in self.experts] # 各专家输出 gate_weights = self.gate(x).softmax(dim=1) # 门控权重 # 加权组合专家输出 task_input = sum(w * e for w, e in zip(gate_weights, expert_outputs)) return self.tower(task_input)

1.3 序列依赖建模：ESMM 家族

对于存在行为序列依赖的任务（如曝光→点击→转化），阿里提出的ESMM系列模型展现出独特优势：

模型对比表：

模型	解决的核心问题	任务设计	样本空间
ESMM	样本选择偏差	CTR×CVR=CTCVR	全空间曝光样本
ESMM2	延迟反馈	增加延迟转化预测	加入等待窗口
AITM	多阶段转化	曝光→点击→转化→付费	全链路建模

提示：当业务转化路径包含多个关键步骤（如电商的浏览-加购-付款）时，建议采用AITM等进阶架构替代基础ESMM。

2. 业务场景下的模型选型策略

2.1 评估任务相关性

在技术选型前，建议通过以下方法量化任务相关性：

指标相关性分析：
- 计算各任务目标在样本级别的Pearson相关系数
- 绘制任务预测结果的散点矩阵图

网络结构探测：

# 使用Probing Network评估表示共享程度 probe_model = nn.Sequential( nn.Linear(shared_rep_dim, 1), nn.Sigmoid() ) # 在不同任务表示上训练探测网络 # AUC差异越小说明表示共享度越高

2.2 数据规模与质量考量

不同规模数据适用的架构选择：

数据规模	推荐架构	原因
小样本（<1M）	Shared-Bottom	避免参数过多导致过拟合
中等样本（1-10M）	MMoE (3-5专家)	平衡模型容量与训练效率
大数据（>10M）	MMoE/CGC (8+专家)	充分挖掘细分模式

注意：当正样本比例低于0.1%时，建议优先采用ESMM架构解决样本稀疏问题。

2.3 典型业务场景适配

电商推荐系统：

双目标（CTR+CVR）：ESMM
三目标（CTR+CVR+收藏率）：MMoE+多任务权重自适应

视频推荐场景：

# 时长建模的特殊处理 class DurationHead(nn.Module): def __init__(self): super().__init__() # 使用Gamma分布拟合观看时长 self.concentration = nn.Linear(input_dim, 1).exp() self.rate = nn.Linear(input_dim, 1).exp() def forward(self, x): return torch.cat([self.concentration(x), self.rate(x)], dim=1)

金融产品推荐：

需考虑合规约束
建议采用分离式架构：共享特征编码层但任务塔完全独立

3. 工业级实现关键技巧

3.1 损失函数设计

多任务学习的损失组合直接影响模型效果：

动态加权法：

# Uncertainty Weighting log_var = nn.Parameter(torch.zeros(num_tasks)) loss = sum(0.5 * torch.exp(-log_var[i]) * task_loss[i] + 0.5 * log_var[i] for i in range(num_tasks))

GradNorm算法：
- 监控各任务梯度范数
- 动态调整任务权重使梯度量级相近

3.2 特征工程优化

共享特征与任务专属特征的处理策略：

用户历史行为序列：共享embedding层
任务敏感特征（如价格敏感度）：添加任务专属embedding

特征重要性分析表：

特征类型	CTR任务重要性	CVR任务重要性	处理建议
用户点击历史	0.62	0.15	共享底层
商品价格	0.08	0.41	CVR塔增强
用户消费档次	0.12	0.57	门控特征

3.3 线上服务优化

计算图优化：
- 专家网络并行计算
- 门控网络轻量化设计

缓存策略：

# 专家输出缓存 @lru_cache(maxsize=1000) def get_expert_output(expert_id, input_vec): return experts[expert_id](input_vec)

AB测试方案：
- 分桶对比各任务指标
- 监控任务间指标相关性变化

4. 前沿进展与未来方向

4.1 最新架构演进

PLE（Progressive Layered Extraction）：
- 腾讯提出的分层专家共享机制
- 在微信看一看中取得+1.2%效果提升
MMoE变体对比：
变体创新点适用场景
CGC 任务组共享专家存在任务分组
SAR-Net 添加任务关系矩阵动态任务相关性
M2M 专家间通信机制复杂任务交互

变体	创新点	适用场景
CGC	任务组共享专家	存在任务分组
SAR-Net	添加任务关系矩阵	动态任务相关性
M2M	专家间通信机制	复杂任务交互

4.2 多模态融合趋势

当前推荐系统正从单纯的行为预测向多模态理解发展：

图文视频多模态特征：
- 共享视觉编码器
- 任务专属模态注意力

跨域知识迁移：

# 跨域共享专家示例 class CrossDomainExpert(nn.Module): def __init__(self): super().__init__() self.domain_gate = nn.Linear(input_dim, num_domains) self.base_expert = MLP(...) def forward(self, x, domain_id): domain_weight = self.domain_gate(x)[:, domain_id] return domain_weight * self.base_expert(x)