从广告点击到下单：手把手教你用ESMM模型解决电商转化率预估的‘样本偏差’难题-编程实验室

电商转化率预估实战：用ESMM模型破解样本偏差困局

在电商平台的推荐系统中，从商品曝光到最终购买的转化漏斗里，转化率（CVR）预估一直是个令人头疼的问题。想象一下这样的场景：用户浏览了首页推荐的商品列表，点击了其中几件感兴趣的商品，但最终只有极少数人会完成购买。传统方法只使用点击后的样本训练CVR模型，就像用残缺的地图导航——结果往往偏离真实路径。这正是阿里ESMM模型要解决的核心问题。

1. 为什么传统CVR预估会失灵？

电商场景下的用户行为遵循严格的顺序链条：曝光→点击→转化。这个链条中隐藏着两个致命陷阱：

样本选择偏差（SSB）：传统CVR模型只用点击后的样本训练（正样本：点击且转化；负样本：点击未转化），但预测时却要对全量曝光样本进行推断。这就好比教练只用篮球校队的数据训练，却要预测全校学生的运动能力。
数据稀疏性：电商平台的点击率通常在2%-5%之间，而点击后的转化率更低。这意味着CVR训练样本可能不足曝光量的1%。下表展示了某电商平台一周的行为数据统计：
行为类型样本量占比
曝光 10M 100%
点击 300K 3%
转化 15K 0.15%

行为类型	样本量	占比
曝光	10M	100%
点击	300K	3%
转化	15K	0.15%

更糟糕的是，这种偏差会形成恶性循环：有偏的CVR预估导致推荐效果下降，进而影响后续的用户行为数据质量。我曾参与过一个家居电商项目，初期使用传统CVR模型时，线上A/B测试显示转化率比离线评估低37%，这就是样本偏差的典型症状。

2. ESMM的破局之道：全空间多任务学习

阿里妈妈团队提出的ESMM（Entire Space Multi-Task Model）采用了一种巧妙的"曲线救国"策略。其核心思想可以用一个简单公式表达：

pCTCVR = pCTR × pCVR

这个等式揭示了三个关键概率的关系：

pCTR：曝光→点击的概率（使用全量曝光样本）
pCVR：点击→转化的概率（传统有偏样本）
pCTCVR：曝光→点击→转化的概率（使用全量曝光样本）

ESMM的聪明之处在于：

通过同时建模CTR和CTCVR两个任务，间接学习CVR
两个任务共享底层特征表示，解决数据稀疏问题
训练时使用全量曝光样本，消除选择偏差

# 简化版ESMM模型结构示例 class ESMM(nn.Module): def __init__(self): super().__init__() # 共享的embedding层 self.shared_emb = EmbeddingLayer() # CTR塔 self.ctr_tower = nn.Sequential( nn.Linear(embed_dim, 256), nn.ReLU(), nn.Linear(256, 1)) # CVR塔 self.cvr_tower = nn.Sequential( nn.Linear(embed_dim, 256), nn.ReLU(), nn.Linear(256, 1)) def forward(self, x): emb = self.shared_emb(x) p_ctr = torch.sigmoid(self.ctr_tower(emb)) p_cvr = torch.sigmoid(self.cvr_tower(emb)) p_ctcvr = p_ctr * p_cvr return p_ctr, p_cvr, p_ctcvr

3. 工程落地：从模型到生产的五个关键点

3.1 特征工程设计

ESMM的特征体系需要兼顾CTR和CVR任务的需求：

用户侧特征：
- 短期行为序列（最近点击/加购/浏览）
- 长期兴趣画像（品类偏好、价格敏感度）
- 实时上下文（设备类型、网络环境）
商品侧特征：
- 静态属性（类目、品牌、价格段）
- 动态指标（近7天销量、转化率）
- 内容特征（主图质量、视频信息）

提示：CVR任务更依赖商品本身的转化能力特征，而CTR任务对用户兴趣特征更敏感。实践中我们发现，将两类特征在embedding层分开处理（而非简单concat）能提升3-5%的AUC。

3.2 损失函数优化

ESMM的原始损失函数由两部分组成：

L = L_CTR + L_CTCVR

但在实际应用中，我们发现两个改进方向：

动态加权：根据业务阶段调整两个任务的权重。大促期间可适当增加CTCVR的权重
序列依赖建模：加入用户行为序列的attention机制，捕获转化路径中的时序模式

# 改进的损失函数示例 def customized_loss(y_ctr, y_ctcvr, pred_ctr, pred_ctcvr, alpha=0.7): ctr_loss = F.binary_cross_entropy(pred_ctr, y_ctr) ctcvr_loss = F.binary_cross_entropy(pred_ctcvr, y_ctcvr) return alpha * ctcvr_loss + (1-alpha) * ctr_loss

3.3 线上服务优化

ESMM的线上推理面临两个挑战：

计算开销：需要同时计算CTR和CVR两个塔
实时性要求：推荐系统通常要求<50ms的响应时间

我们的解决方案：

模型蒸馏：训练轻量级student模型
分级缓存：
- 热商品预计算CTR/CVR
- 用户实时行为更新embedding

3.4 冷启动处理

对于新商品或新用户，ESMM容易遭遇冷启动问题。我们采用的策略：

迁移学习：复用同类商品/相似用户的embedding
图神经网络：构建商品关系图谱，利用邻域信息
Bandit算法：在探索与利用间取得平衡

3.5 效果评估体系

不同于传统模型的单一指标评估，ESMM需要多维监控：

离线指标：
- CTR塔的AUC/GAUC
- CTCVR任务的RPM（每千次曝光收益）
在线指标：
- 转化率提升幅度
- 订单金额增长率
- 用户复购率变化

在某美妆电商的AB测试中，ESMM相比传统模型带来了显著提升：

指标	传统模型	ESMM	提升幅度
CTR	3.2%	3.5%	+9.4%
CVR	1.8%	2.3%	+27.8%
平均订单金额	¥158	¥172	+8.9%

4. 进阶技巧：ESMM的变体与创新

4.1 ESMM+：引入用户行为序列

原始ESMM忽略了用户行为的时间维度。我们改进方案：

使用Transformer编码用户历史行为
在共享embedding层加入时序attention
构建用户兴趣演化路径

class BehaviorEncoder(nn.Module): def __init__(self, embed_size): super().__init__() self.attention = nn.MultiheadAttention(embed_size, 4) def forward(self, seq_emb): # seq_emb: [seq_len, batch, embed_dim] attn_out, _ = self.attention(seq_emb, seq_emb, seq_emb) return attn_out.mean(dim=0) # 聚合序列信息

4.2 多目标优化

除了CTR和CVR，现代电商系统还需要考虑：

加购率
收藏率
停留时长
退换货风险

我们扩展的MT-ESMM框架能同时优化多个目标：

p(点击,加购,购买|X) = p(点击|X) × p(加购|点击,X) × p(购买|加购,X)

4.3 与召回模块的协同

ESMM通常用于排序阶段，但与召回模块联动能产生更大价值：

反馈循环：用ESMM的预测结果优化召回策略
Embedding共享：将ESMM学习到的商品embedding用于向量召回
多阶段一致性：保证召回和排序的目标对齐

5. 避坑指南：ESMM实践中的常见问题

在三个不同行业的电商平台实施ESMM后，我们总结了这些经验教训：

特征穿越问题：
- 错误做法：使用未来信息（如曝光后7天的转化数据）
- 正确做法：严格按时间切分训练/验证集，采用滚动时间窗口
样本权重失衡：
- 现象：高价值商品转化样本过少
- 解决方案：对GMV相关样本进行适当过采样
模型退化风险：
- 症状：CTR塔主导整个模型，CVR学习不充分
- 对策：定期冻结CTR参数，单独训练CVR塔
线上监控盲区：
- 易忽略点：两个塔的输出分布漂移
- 监控方案：建立CTR-CVR相关性指标报警机制

注意：在部署ESMM后的前两周，建议每天对比离线评估和线上效果。我们曾遇到离线AUC提升但线上效果下降的情况，最终发现是线上特征管道存在延迟。

在跨境电商项目中，ESMM的落地需要额外考虑：

多货币单位的统一处理
物流时效对转化的影响
地区文化差异导致的消费偏好

一个实用的技巧是为不同地区市场训练独立的embedding表，只在高层网络参数共享。这种混合架构在保持模型能力的同时，也能适应区域特性。

从广告点击到下单：手把手教你用ESMM模型解决电商转化率预估的‘样本偏差’难题