真实分布 P (先以硬标签为例)
有一个样本 x(比如一张猫狗图片)
它的真实标签是:猫
经过独热编码后:
猫 = [1, 0, 0]
狗 = [0, 1, 0]
鸟 = [0, 0, 1]
预测分布 Q—— 模型(神经网络)输出的 softmax
[0.7, 0.2, 0.1]
CE函数公式:
代入:
KL散度公式:
KL = 0 → 两分布完全相同
KL > 0 → 预测分布偏离真实分布
KL 衡量:"用 Q 代替 P 会损失多少信息"
如果教师模型不采用硬标签,采用软标签:比如[0.8,0.1,0.1]