置信预测中APS与RAPS的覆盖差距：效率与可靠性的权衡-编程实验室

1. 项目概述：置信预测中的“矛”与“盾”

在机器学习模型的实际部署中，我们常常面临一个核心困境：模型给出的预测，我们到底该信多少？一个分类模型说这张图片有99%的概率是猫，我们是否就能高枕无忧地相信它？在自动驾驶、医疗诊断、金融风控等高风险领域，这种“置信度”的可靠性直接关系到决策的安全与成败。传统的点估计模型（比如直接输出“猫”这个标签）无法提供这种可靠性度量，而置信预测（Conformal Prediction）框架的提出，正是为了解决这一问题。它能为任何黑盒模型的预测附上一个具有统计理论保障的“预测集合”，例如，模型可能会输出 {“猫”， “狗”}，并声称这个集合有90%的概率包含真实标签。

然而，天下没有免费的午餐。置信预测在提供统计保障的同时，也引入了新的权衡。其中，自适应预测集（Adaptive Prediction Sets, APS）和正则化自适应预测集（Regularized Adaptive Prediction Sets, RAPS）是两种旨在优化预测集合“效率”的主流方法。这里的“效率”，直观理解就是预测集合的平均大小——我们当然希望这个保障安全的集合越小越好，越精确越好。一个总是输出所有可能类别的集合（比如图像分类中的1000个类别）虽然100%包含真实标签，但毫无用处。

这个项目要深入剖析的，正是APS与RAPS这对“兄弟”方法在追求高效率的过程中，所暴露出的一个微妙而关键的问题：覆盖差距。简单说，就是理论承诺的覆盖概率（比如90%）与实际在数据上观测到的覆盖概率之间的偏差。我们追求效率（小集合），但绝不能以牺牲覆盖可靠性（统计保障）为代价。本文将带你深入置信预测的核心，拆解APS和RAPS的工作原理，通过详实的实验分析，揭示它们在不同场景下覆盖差距的成因，并探讨如何在“覆盖可靠性”与“集合效率”之间做出明智的权衡。无论你是机器学习的研究者，还是关心模型可靠性的工程师，理解这些内在的权衡都将帮助你构建更值得信赖的AI系统。

2. 置信预测、APS与RAPS核心原理拆解

要理解覆盖差距，我们必须先夯实基础，明白标准置信预测、APS和RAPS各自是怎么工作的，以及它们的目标有何不同。

2.1 标准分位数法：保守的基准

标准的分位数法（Split Conformal Prediction）是置信预测的基石。其流程非常清晰：

数据划分：将已有数据划分为训练集和校准集。训练集用于训练我们的基础模型（如ResNet、Transformer），校准集则用于后续的“校准”步骤。
计算非共形分数：在校准集上，用训练好的模型对每个样本进行预测。对于分类任务，最常用的分数是1 - 模型对真实标签预测的概率。例如，模型对某张图片（真实为“猫”）预测为“猫”的概率是0.9，那么其非共形分数就是1 - 0.9 = 0.1。这个分数越低，说明模型对真实标签的预测越有信心。
计算分位数：设定我们期望的覆盖水平1 - α（例如，90%覆盖对应α=0.1）。我们计算校准集上所有非共形分数的(n+1)(1-α)/n分位数（经过有限样本校正），记作q̂。
形成预测集：对于一个新的测试样本，模型会输出对所有可能类别的预测概率。我们将所有满足1 - 预测概率 <= q̂的类别，都纳入预测集合。换句话说，所有模型预测概率大于1 - q̂的类别，都被认为是“有可能”的。

注意：这种方法产生的预测集大小是固定阈值决定的。它简单、稳健，且具有严格的边际覆盖保证，即对所有可能的新数据，其覆盖概率至少为1 - α。但它的问题在于“效率”可能不高，因为它对所有样本“一视同仁”，没有考虑模型对不同样本置信度的差异。

2.2 APS：追求动态效率的先锋

自适应预测集（APS）的核心思想是让预测集的大小动态适应每个样本的预测概率分布。它不再使用一个固定的概率阈值，而是采用一种累积概率的方式。

APS的工作流程如下：

排序与累积：对于每个样本（无论是校准集还是测试集），将模型输出的所有类别按照预测概率从高到低排序。
计算累积概率：从概率最高的类别开始，依次累加它们的预测概率。
纳入预测集：将累积概率首次超过阈值1 - α的类别及其之前的所有类别，都纳入预测集。同时，APS通常引入一个微小的随机扰动（均匀分布）来打破平局，确保严格的有限样本覆盖保证。

举个例子：假设有3个类别A、B、C，预测概率分别为[0.5, 0.3, 0.2]，α=0.1（目标覆盖90%）。

排序后为A(0.5), B(0.3), C(0.2)。
累积概率：A:0.5 (小于0.9)， A+B:0.8 (小于0.9)， A+B+C:1.0 (大于0.9)。
因此，预测集为 {A, B, C}。如果概率分布是[0.85, 0.1, 0.05]，那么累积到A时(0.85)仍小于0.9，需要加入B(0.95>0.9)，预测集为{A, B}。

APS的优势与代价：

优势：对于模型非常确信的样本（某个类别概率极高），APS产生的预测集会非常小（可能只有1个类别），从而显著提升了平均集合大小这一效率指标。
代价：这种“自适应”性破坏了标准的分位数框架。其覆盖保证的达成，严重依赖于在校准集上估计的那个随机扰动分位数。当模型概率估计有偏差（例如，过于自信或不自信），或者校准集与测试集分布有轻微偏移时，APS的实际覆盖率可能系统性偏离理论水平，即出现覆盖差距。它可能过度自信，导致实际覆盖率低于目标。

2.3 RAPS：为稳定性引入正则化

正则化自适应预测集（RAPS）可以看作是APS的一个“稳健化”改进版本。它意识到了APS在追求效率时可能带来的覆盖不稳定性问题，因此引入了两项正则化项。

RAPS的核心修改在于非共形分数的定义：分数 = (累积概率超过阈值所需的最小类别集合的累积和) + λ * (集合大小) + κ * (max(0, 集合中最低排名 - k_reg))

第一项：与APS类似，是累积概率超过1 - α的累积和。
第二项（大小惩罚项λ * |预测集|）：直接惩罚预测集的大小。λ是一个超参数。这相当于在效率（小集合）和覆盖之间做了一个明确的权衡。即使累积概率很快超过了阈值，增加一个类别带来的概率增益很小，但大小惩罚会促使算法思考是否真的需要纳入这个类别。
第三项（排名惩罚项κ * ...）：惩罚那些纳入排名非常靠后（概率很低）的类别。k_reg是一个阈值排名，κ是惩罚系数。这防止了预测集为了勉强达到概率阈值而纳入大量极不可能的“长尾”类别，使得集合更紧凑、更合理。

RAPS的权衡：

优势：通过λ和κ这两个“旋钮”，使用者可以更精细地控制效率与覆盖/稳健性之间的平衡。理论上，通过调整λ，可以使RAPS在覆盖偏差方面表现得比APS更稳定。
挑战：引入了超参数 (λ,κ,k_reg)。虽然可以通过在另一个独立的校准集（有时称为“正则化校准集”）上进行交叉验证来选择，但这增加了复杂性和计算成本。参数选择不当，可能导致效率损失过大，或覆盖差距问题依然存在。

3. 覆盖差距的实证分析与成因探秘

理论是灰色的，而实验之树常青。要真正理解APS和RAPS的覆盖差距，我们必须深入到具体的数据和模型中去观察。

3.1 实验设置与评估指标

为了进行有意义的分析，我们需要一个标准的实验框架：

数据集：选择具有不同特性的公开数据集，例如：
- CIFAR-10/100：相对均衡的图像分类。
- ImageNet：类别多、存在长尾和模糊样本的大规模数据集。
- 某些医学影像数据集：可能存在类别不平衡和标注噪声。
基础模型：使用预训练模型（如ResNet-50, Vision Transformer）并在目标数据集上微调。关键是要获得“预测概率”，通常使用Softmax输出。
校准与测试：严格将数据划分为训练集、校准集（用于计算分位数q̂）、测试集（用于评估覆盖和效率）。校准集大小是一个关键因素，通常从几百到几千个样本不等。
核心评估指标：
1. 经验覆盖率：在测试集上，预测集合真正包含真实标签的样本比例。这是衡量“统计保障”是否兑现的黄金标准。
2. 平均集合大小：测试集上所有样本预测集合中包含类别数量的平均值。这是“效率”的核心指标。理想情况是覆盖率接近目标（如90%），同时平均集合大小尽可能小。
3. 覆盖差距：|经验覆盖率 - 目标覆盖率|。我们重点关注这个差距的符号（是欠覆盖还是过覆盖）和幅度。

3.2 APS覆盖差距的典型表现与根源

在实际实验中，我们经常观察到以下现象：

现象一：在小校准集或模型过度自信时，APS容易出现欠覆盖。

表现：经验覆盖率（如88%）持续低于目标覆盖率（90%）。
根源分析：
1. 随机扰动分位数的估计误差：APS的严格覆盖依赖于校准集上计算的随机扰动分位数。当校准集较小时，这个分位数的估计方差很大。如果恰巧估计得偏小，那么用于测试的阈值就会偏紧，导致生成的预测集普遍偏小，从而漏掉更多真实标签，造成欠覆盖。
2. 模型过度自信：现代深度神经网络的Softmax输出常常“过于尖锐”，即对正确标签的概率估计过高，对错误标签的概率估计过低。这使得APS算法更容易在累积概率达到阈值时提前停止，产生非常小的预测集。然而，这种“高概率”可能并不完全可靠，一旦模型犯错（概率给了错误的类别），小的预测集就很容易漏掉真实标签。APS放大了模型校准误差的影响。

现象二：在校准集与测试集存在分布偏移时，APS覆盖不稳定。

表现：覆盖差距的幅度和方向难以预测。
根源分析：APS的自适应机制高度依赖于模型输出的概率分布形态。如果测试集的数据分布（如风格、难度）与校准集不同，模型概率分布的整体形态可能发生改变（例如，整体变得不那么自信）。此时，基于校准集概率分布计算的自适应规则，在测试集上就不再是最优的，甚至是有偏的，导致覆盖失效。

3.3 RAPS如何影响覆盖差距？参数的双刃剑效应

RAPS通过正则化项介入，旨在提供一种调控机制。

实验观察：

当λ设置较小时，RAPS行为接近APS，覆盖差距问题依然明显。
随着λ增大，大小惩罚项开始显效。算法会倾向于生成更小的集合，但这可能会加剧欠覆盖（如果模型本来就过度自信）。反之，在某些情况下，惩罚项可能阻止算法过早停止累积，从而纳入更多类别，可能缓解欠覆盖，甚至导致轻微过覆盖，但代价是效率降低。
排名惩罚项κ主要作用是砍掉“长尾”，它通常能提升效率（让集合更紧凑），但如果不小心，也可能在那些真实标签恰好属于低概率“长尾”类的困难样本上造成覆盖失败。

核心权衡可视化：我们可以绘制一条“效率-覆盖差距”曲线。横轴是平均集合大小（效率），纵轴是覆盖差距的绝对值。

APS点：通常位于这条曲线的某个位置，可能效率较高（点偏左），但覆盖差距较大（点偏上）。
RAPS轨迹：通过调整λ，我们可以得到一条从APS点出发的轨迹。增大λ，点会向左上方移动（效率更高，但覆盖差距可能更大）；减小λ，点会向右下方移动（效率降低，但覆盖可能更稳健）。我们的目标是在这条曲线上找到一个“拐点”，即覆盖差距开始急剧增大之前的那个点，用可接受的少量效率损失，换取覆盖可靠性的显著提升。

实操心得：不要盲目追求最小的平均集合大小。在关键应用中，一个稳定可靠的90%覆盖，远比一个波动剧烈、时而85%时而95%的“高效”覆盖更有价值。RAPS的调参过程，本质上是在用一部分“平均效率”换取“覆盖稳健性”的保险。

4. 实战：在具体任务中实现与调优APS/RAPS

理解了原理和问题，我们来看如何在实际代码中实现它们，并进行有效的调优。这里以图像分类任务为例，使用PyTorch框架。

4.1 数据准备与模型校准流程

import torch import numpy as np from sklearn.model_selection import train_test_split # 1. 数据划分：训练集、校准集、测试集 # 假设 all_images, all_labels 是原始数据 train_images, temp_images, train_labels, temp_labels = train_test_split( all_images, all_labels, test_size=0.4, random_state=42 ) cal_images, test_images, cal_labels, test_labels = train_test_split( temp_images, temp_labels, test_size=0.5, random_state=42 ) # 最终比例：训练集60%，校准集20%，测试集20% # 2. 训练基础模型（此处省略详细训练代码） # model = YourPretrainedModel() # ... 训练 model 在 train_images/train_labels 上 ... # 3. 在校准集上获取预测概率 model.eval() with torch.no_grad(): cal_logits = model(torch.tensor(cal_images).float()) cal_probs = torch.softmax(cal_logits, dim=1).numpy() # 形状 [n_cal, n_classes] # 4. 计算非共形分数函数 def calculate_scores(probs, labels, method='aps', lambda_=0.0, k_reg=1000, kappa=0.0): """ 计算APS或RAPS的非共形分数。 probs: [n_samples, n_classes] 概率矩阵 labels: [n_samples] 真实标签 method: 'aps' 或 'raps' lambda_, k_reg, kappa: RAPS参数 """ n_samples = probs.shape[0] scores = [] for i in range(n_samples): prob = probs[i] true_label = labels[i] # 按概率降序排列的索引 sorted_idx = np.argsort(-prob) sorted_probs = prob[sorted_idx] cumsum = 0.0 set_size = 0 for j, p in enumerate(sorted_probs): cumsum += p set_size += 1 if cumsum >= 1 - alpha: # alpha 是全局变量，例如 0.1 # 找到包含真实标签所需的最小集合 # 找到真实标签在排序中的位置 true_label_rank = np.where(sorted_idx == true_label)[0][0] if true_label_rank <= j: # 真实标签在当前集合内 # APS分数就是累积和（加上随机扰动，实践中在分位数计算时统一加） score = cumsum if method == 'raps': # 加上RAPS惩罚项 score += lambda_ * set_size if true_label_rank >= k_reg: score += kappa * (true_label_rank - k_reg + 1) else: # 如果真实标签不在当前最小集合内，需要继续累积直到包含它 # 这里简化处理，实际上分数会更大 score = cumsum + prob[sorted_idx[true_label_rank]] if method == 'raps': score += lambda_ * (j+2) # 粗略估计 if true_label_rank >= k_reg: score += kappa * (true_label_rank - k_reg + 1) scores.append(score) break return np.array(scores) # 5. 计算分位数 q_hat alpha = 0.1 # 目标错误率10%，即覆盖90% cal_scores_aps = calculate_scores(cal_probs, cal_labels, method='aps') n_cal = len(cal_scores_aps) q_hat_aps = np.quantile(cal_scores_aps, np.ceil((n_cal+1)*(1-alpha))/n_cal) # 对于RAPS，需要在一个额外的验证集上选择lambda_, kappa # 这里省略超参数搜索过程，假设我们已经得到一组参数 lambda_opt, kappa_opt = 0.01, 0.0 cal_scores_raps = calculate_scores(cal_probs, cal_labels, method='raps', lambda_=lambda_opt, kappa=kappa_opt) q_hat_raps = np.quantile(cal_scores_raps, np.ceil((n_cal+1)*(1-alpha))/n_cal)

4.2 预测集生成与评估函数实现

有了分位数q_hat，我们就可以为测试集生成预测集并评估了。

def generate_prediction_sets(test_probs, q_hat, method='aps', lambda_=0.0, k_reg=1000, kappa=0.0): """ 为测试集生成预测集合。 返回：预测集合列表，每个元素是一个包含类别索引的列表。 """ n_test, n_class = test_probs.shape prediction_sets = [] for i in range(n_test): prob = test_probs[i] sorted_idx = np.argsort(-prob) sorted_probs = prob[sorted_idx] cumsum = 0.0 current_set = [] for j, p in enumerate(sorted_probs): cumsum += p current_set.append(sorted_idx[j]) score = cumsum if method == 'raps': score += lambda_ * (j+1) if j >= k_reg: # 简化处理，假设排名j从0开始 score += kappa * (j - k_reg + 1) if score >= q_hat: # 注意：这里生成集合的规则与计算分数的规则需严格一致。 # 实际APS/RAPS实现中，生成集合时也需要考虑随机扰动以确保边际覆盖。 # 为简化演示，此处直接使用当前集合。 # 严格的实现需要模拟在校准集上相同的随机过程。 prediction_sets.append(current_set) break else: # 如果循环结束仍未达到q_hat，纳入所有类别（理论上不会发生） prediction_sets.append(sorted_idx.tolist()) return prediction_sets def evaluate_coverage_and_size(prediction_sets, true_labels): """评估经验覆盖率和平均集合大小""" coverage = np.mean([true_labels[i] in pred_set for i, pred_set in enumerate(prediction_sets)]) avg_size = np.mean([len(pred_set) for pred_set in prediction_sets]) return coverage, avg_size # 在测试集上获取概率 with torch.no_grad(): test_logits = model(torch.tensor(test_images).float()) test_probs = torch.softmax(test_logits, dim=1).numpy() # 生成预测集并评估 ps_aps = generate_prediction_sets(test_probs, q_hat_aps, method='aps') cov_aps, size_aps = evaluate_coverage_and_size(ps_aps, test_labels) ps_raps = generate_prediction_sets(test_probs, q_hat_raps, method='raps', lambda_=lambda_opt, kappa=kappa_opt) cov_raps, size_raps = evaluate_coverage_and_size(ps_raps, test_labels) print(f"APS - 覆盖率: {cov_aps:.3f}, 平均大小: {size_aps:.2f}") print(f"RAPS - 覆盖率: {cov_raps:.3f}, 平均大小: {size_raps:.2f}")

4.3 RAPS超参数调优实战策略

RAPS的性能高度依赖于λ和κ的选择。一个实用的调优策略如下：

二次划分校准集：将原始校准集进一步划分为训练校准集和验证校准集。
网格搜索：在训练校准集上，对于多组(λ, κ)参数（κ常可先设为0），计算对应的分位数q_hat(λ, κ)。
在验证校准集上评估：使用上一步的q_hat(λ, κ)，在验证校准集上生成预测集，计算经验覆盖率和平均集合大小。
选择策略：
- 保守策略：选择满足经验覆盖率 >= 目标覆盖率的所有参数中，平均集合最小的那一组。这优先保障覆盖。
- 平衡策略：定义一个损失函数，例如损失 = |经验覆盖率 - 目标覆盖率| + β * 平均集合大小，选择损失最小的参数组。其中β是你对效率的偏好权重。
最终评估：用选出的最优参数，在完整的校准集上重新计算q_hat，然后在独立的测试集上进行最终评估。

注意事项：超参数调优本身会引入对验证集的“过拟合”，可能使最终在测试集上的覆盖略有偏差。因此，验证集需要足够大，且调优过程应尽可能简单。有时，固定一个经验性的小λ（如0.01）可能比复杂的调优更稳健，尤其是在数据有限时。

5. 常见问题、陷阱与高级考量

在实际应用APS和RAPS时，你会遇到一些典型问题和更深入的考量。

5.1 覆盖差距诊断与应对速查表

现象	可能原因	诊断方法	应对策略
系统性欠覆盖（覆盖率持续低于目标）	1. 校准集太小。 2. 模型过度自信（概率校准差）。 3. APS方法本身在高置信度样本上的固有偏差。	1. 增大校准集规模，观察覆盖率是否向目标收敛。 2. 检查模型校准曲线（可靠性曲线）。 3. 对比标准分位数法的覆盖率。	1. 增加校准数据。 2. 对模型进行后校准（如温度缩放）。 3. 切换到RAPS并适当调小`λ`，或直接使用更保守的标准分位数法。
系统性过覆盖（覆盖率持续高于目标）	1. 模型欠自信（概率过于平滑）。 2. 数据存在较大噪声，模型不确定性高。 3. RAPS中`λ`设置过大（过度惩罚大小）。	1. 检查模型在验证集上的准确率是否正常。 2. 查看预测集的平均大小是否异常大。	1. 改进模型本身，提升判别能力。 2. 清洗数据或使用噪声鲁棒训练方法。 3. 调整RAPS的`λ`参数。
覆盖波动大（不同数据子集上覆盖率差异大）	1. 校准集/测试集分布不一致。 2. 校准集代表性不足，未能涵盖测试集的多样性。 3. 数据本身存在子群（subgroup）差异。	1. 进行分布检测（如KL散度）。 2. 按不同属性（如类别、难度）分组计算覆盖率。	1. 确保数据划分的随机性和代表性。 2. 考虑使用分组或条件置信预测方法。 3. 收集更全面、多样的校准数据。
APS与RAPS效率差异不明显	1. 模型概率分布本身就很“平坦”，自适应空间小。 2. RAPS参数 (`λ`,`κ`) 设置过于保守。	1. 观察模型预测概率的熵的分布。 2. 尝试更激进的RAPS参数（增大`λ`）。	1. 效率提升的上限受限于模型本身的校准质量。 2. 在可接受的覆盖偏差范围内，尝试寻找更优的RAPS参数。

5.2 超越APS/RAPS：其他方法与混合策略

当APS/RAPS的权衡不能满足需求时，可以考虑其他方向：

标准分位数法 + 概率校准：先使用温度缩放（Temperature Scaling）或Platt缩放等方法对模型输出的概率进行校准，使其更接近真实置信度，然后再应用标准分位数法。这通常能提升效率，且覆盖更稳定。
基于风险控制的框架：将覆盖保证转化为对某些特定损失（如误分类成本）的控制，可能在某些场景下比单纯的集合覆盖更有意义。
条件覆盖方法：追求在数据的每个子组（如每个类别、每个难度区间）内都满足覆盖保证，而不是整体的边际覆盖。这能解决覆盖率在子群间不平衡的问题，但方法更复杂，需要更多数据。
集成多种方法：对于关键系统，可以并行运行APS、RAPS和标准分位数法，并设计一个元决策器，根据样本特征（如模型预测的熵）选择最合适的预测集生成方法。例如，对高熵（不确定）样本使用更保守的方法，对低熵（确定）样本使用APS以提升效率。

5.3 工程部署中的注意事项

校准集的维护与更新：模型迭代或数据分布漂移后，必须用新的代表性数据重新校准，重新计算q_hat。这是一个持续的过程。
计算开销：APS/RAPS需要在推理时对每个样本的概率进行排序和累积计算，对于类别数极多（如数万）的任务，需要考虑计算效率优化。
解释性：向最终用户解释“为什么预测集包含这些类别”比解释单一标签更复杂。可以附带每个类别的概率作为辅助信息。
与决策系统的集成：预测集本身不是最终决策。下游系统需要定义如何利用这个集合。例如，在医疗辅助诊断中，如果预测集包含多个疾病，可能需要建议进行更多检查；如果集合为空（理论上在置信预测中可能发生，取决于实现），则意味着模型在此样本上“弃权”，这是一个重要的不确定性信号。

覆盖差距与效率的权衡，是置信预测从理论走向实践必须直面的核心问题。APS和RAPS提供了追求效率的路径，但也带来了新的复杂性。没有放之四海而皆准的最优解。我的经验是，在绝大多数应用中，从一个简单、稳健的标准分位数法开始，确保覆盖可靠；然后，如果效率成为瓶颈，再谨慎地引入RAPS并进行细致的验证。记住，可靠性永远是置信预测存在的第一理由，任何对效率的优化，都不能以牺牲覆盖的稳健性为代价。在实际项目中，我通常会同时报告多种方法的结果，并清晰地展示其中的权衡曲线，让领域专家能够根据实际风险承受能力做出最终选择。