medDML：双重机器学习下的因果中介分析-R语言-编程实验室

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

作者：赵俊 (南开大学)
邮箱：m16531438093_1@163.com

Title: medDML：双重机器学习下的因果中介分析-R语言
Keywords: 中介分析, 直接效应, 间接效应, 因果机制, 双重机器学习, 有效得分, causalweight, medDML, Double Machine Learning, Causal Mediation Analysis

编者按：本文主要摘译自下文，并结合 R 包causalweight演示其实现，特此致谢！
Source: Farbmacher H, Huber M, Lafférs L, Langen H, Spindler M. Causal mediation analysis with double machine learning.The Econometrics Journal, 2022, 25(2): 277-300. -Link-，-PDF-

摘要：本文介绍 Farbmacher et al. (2022) 提出的因果中介分析与双重机器学习相结合的方法。该方法在高维设定下，基于「可观测变量选择」(selection-on-observables) 假设，以数据驱动的方式控制观测到的混淆因素，将二元处理的平均处理效应分解为经由中介变量的间接效应与不经由中介的直接效应。估计基于有效得分函数，对结果模型、中介模型与处理模型的错设具有多重稳健性，并通过 K 折交叉拟合避免过拟合；在特定正则条件下，效应估计量渐近正态且具有 root-nn 一致性。文末结合 R 包causalweight的medDML()函数，用数值模拟演示该方法的具体操作，并比较不同机器学习器的表现。

1. 引言

在很多实证问题里，我们不只想知道「处理有没有效果」，更想回答一个更细的问题：这个效果是怎么产生的？比如，医疗保险为什么能改善健康？是因为更多人去做体检、早发现早治疗，还是因为其他渠道——治疗更容易获得、用药负担下降、心理安全感提升？

这就是因果中介分析要做的事：把总效应拆成两部分。一部分是间接效应，即处理通过中介变量 MM 影响结果 YY 的那一段；另一部分是直接效应，即不经过 MM 的那一段，涵盖所有其他机制。

需要说明的是：即便处理 DD 是随机分配的，把 MM「当作控制变量」直接放进回归，也不一定能识别直接效应和间接效应。原因在于，中介 MM 是处理后的变量，往往带有内生性和复杂的选择机制，简单控制很容易引入偏差——这也是中介分析从早期线性回归框架走向潜在结果框架的重要原因 (Kaufman et al., 2004)。

经典的识别思路通常依赖「可观测变量选择」式假设：只要把足够丰富的处理前协变量 XX 控制好，处理和中介在条件意义下就可以看作外生，从而识别自然直接效应、自然间接效应与受控直接效应等关键参数。问题在于，现实数据中 XX 往往非常多（甚至高维），研究者很难凭经验决定「到底该控制哪些」。更糟的是，很多人会不断尝试不同的控制变量组合以提升拟合或显著性，由此产生的模型选择不确定性会让传统推断失真。

Farbmacher et al. (2022) 的思路可以概括为一句话：

用双重机器学习 (DML) 把「高维控制变量怎么选」这件事交给机器学习，同时仍然得到可靠的因果推断。

具体来说，作者把中介分析中基于有效得分/影响函数的识别结果 (Tchetgen Tchetgen and Shpitser, 2012) 与 DML 框架 (Chernozhukov et al., 2018) 结合起来，构造出满足Neyman 正交性的得分函数。正交性的直观含义是：即便用机器学习去估计倾向得分、结果回归、中介模型这些「辅助函数」，只要它们估得「差不多」，目标效应的估计就不会被这些误差的一阶项拖垮，依然可以做标准的 n−1/2n−1/2 推断——渐近正态、可建置信区间。为了避免机器学习的过拟合污染估计，论文同时使用样本分割 + K 折交叉拟合(cross-fitting)：用部分样本训练辅助模型，在另一部分样本上计算得分并估计效应，再把各折结果平均。

作者还给出一个很实用的扩展：通过贝叶斯公式改写得分函数，得到一种不必显式估计中介条件密度 f(M∣D,X)f(M∣D,X) 的替代表达式。当 MM 连续或多维时，这一点尤其关键——「估密度」往往是中介分析里最难、也最不稳定的一步。这一表示法正是 R 包causalweight中medDML()函数的默认实现，本文第 5–6 节将演示其用法。

2. 直接效应与间接效应的定义

我们的目标是将二元处理对结果变量的平均处理效应 (ATE) 分解为两部分：通过中介变量 MM 发挥作用的间接效应，以及不通过 MM、包含其他所有因果机制的直接效应。

采用潜在结果框架 (Rubin, 1974) 定义这些参数。M(d)M(d) 表示处理取值为 d∈{0,1}d∈{0,1} 时的潜在中介，Y(d,m)Y(d,m) 表示处理为 dd、中介为 mm 时的潜在结果。观测到的结果与中介对应于实际处理状态下的潜在变量：

Y=D⋅Y(1,M(1))+(1−D)⋅Y(0,M(0))Y=D⋅Y(1,M(1))+(1−D)⋅Y(0,M(0))

M=D⋅M(1)+(1−D)⋅M(0).M=D⋅M(1)+(1−D)⋅M(0).

也就是说，其他潜在结果或潜在中介在不施加进一步统计假设的情况下都是观测不到的。

用 Δ=E[Y(1,M(1))−Y(0,M(0))]Δ=E[Y(1,M(1))−Y(0,M(0))] 表示 ATE，它同时包含直接效应与间接效应。平均直接效应θ(d)θ(d) 是在切换处理状态、同时把潜在中介固定在 M(d)M(d) 时，潜在结果均值的差——这样就阻断了经由 MM 的因果路径：

θ(d)=E[Y(1,M(d))−Y(0,M(d))],d∈{0,1}.(1)θ(d)=E[Y(1,M(d))−Y(0,M(d))],d∈{0,1}.(1)

平均间接效应δ(d)δ(d) 则是保持处理固定在 dd（阻断直接路径）、切换潜在中介取值时，潜在结果均值的差：

δ(d)=E[Y(d,M(1))−Y(d,M(0))],d∈{0,1}.(2)δ(d)=E[Y(d,M(1))−Y(d,M(0))],d∈{0,1}.(2)

简言之，θ(d)θ(d) 是「只动处理、不动中介」的效应，δ(d)δ(d) 是「只动中介、不动处理」的效应。在 (3) 式中对反事实结果 E[Y(0,M(1))]E[Y(0,M(1))] 与 E[Y(1,M(0))]E[Y(1,M(0))] 做加减，即可看出 ATE 等于在相反处理状态上定义的直接效应与间接效应之和：

Δ=E[Y(1,M(1))−Y(0,M(0))]=E[Y(1,M(1))−Y(0,M(1))]+E[Y(0,M(1))−Y(0,M(0))]=θ(1)+δ(0)=E[Y(1,M(0))−Y(0,M(0))]+E[Y(1,M(1))−Y(1,M(0))]=θ(0)+δ(1).(3)Δ=E[Y(1,M(1))−Y(0,M(0))]=E[Y(1,M(1))−Y(0,M(1))]+E[Y(0,M(1))−Y(0,M(0))]=θ(1)+δ(0)=E[Y(1,M(0))−Y(0,M(0))]+E[Y(1,M(1))−Y(1,M(0))]=θ(0)+δ(1).(3)

为什么要区分 θ(1)θ(1) 与 θ(0)θ(0)、δ(1)δ(1) 与 δ(0)δ(0)？因为 DD 与 MM 之间可能存在交互效应，效应在不同处理状态下可能是异质的。例如，医疗保险覆盖 (DD) 对健康 (YY) 的直接效应，可能取决于个体是否进行了常规体检 (MM)。处理与中介的交互也可以用另一种方式呈现，即把 ATE 做三重分解：纯直接效应 θ(0)θ(0)、纯间接效应 δ(0)δ(0) 与「中介化交互效应」 (VanderWeele, 2013)。

中介分析文献中还有一个受到广泛关注的参数：受控直接效应γ(m)γ(m)，对应于切换处理状态、并把中介在全体样本中强制固定为同一取值 mm 时，潜在结果均值之差：

γ(m)=E[Y(1,m)−Y(0,m)],m∈supp⁡(M).(4)γ(m)=E[Y(1,m)−Y(0,m)],m∈supp(M).(4)

γ(m)γ(m) 与 θ(d)θ(d) 的区别在于：后者把中介固定在「自然实现」的潜在取值 M(d)M(d) 上（可因人而异），前者则在整个总体中强制实施同一个中介状态。两者只有在 DD 与 MM 不存在交互时才等价。哪个参数更相关，取决于「对中介进行干预或规定」在现实中是否可行、是否可取。还需要说明的是，受控直接效应没有与之配对的间接效应参数——总效应与受控直接效应之差一般并不对应任何间接效应，除非 DD 与 MM 不存在交互。

3. 假设与识别

识别策略基于这样一种假设：处理—结果、处理—中介、中介—结果这三类关系中的混淆，都可以通过控制观测协变量 XX 来排除。XX 不能包含会受处理影响的变量，因此通常要求 XX 在处理赋值之前测量。

假设 1（处理的条件独立）：对所有 d′,d∈{0,1}d′,d∈{0,1} 以及 MM 支撑集中的所有 mm，

{Y(d′,m), M(d)}⊥D∣X,{Y(d′,m),M(d)}⊥D∣X,

其中 ⊥⊥ 表示统计独立。

这一限制在处理效应文献中也称为条件独立、可观测变量选择或外生性 (Imbens, 2004)。它排除的情形是：给定 XX 后，仍存在同时影响处理以及中介和/或结果的因素。在非实验数据中，这个假设是否可信，关键看 XX 是否足够丰富。

假设 2（中介的条件独立）：对所有 d′,d∈{0,1}d′,d∈{0,1} 以及 M,XM,X 支撑集中的所有 m,xm,x，

Y(d′,m)⊥M∣D=d, X=x.Y(d′,m)⊥M∣D=d,X=x.

假设 2 排除的情形是：给定 DD 与 XX 后，仍存在同时影响中介与结果的因素。若 XX 是处理前变量（这很常见），这就意味着不存在中介—结果关系的处理后混淆(post-treatment confounding)。需要说明的是，如果处理测量与中介测量之间的时间窗口很长、期间很多变量都在变化，这一假设的可信度就会下降。

假设 3（共同支撑）：对所有 d∈{0,1}d∈{0,1} 以及 M,XM,X 支撑集中的所有 m,xm,x，

Pr⁡(D=d∣M=m, X=x)>0.Pr(D=d∣M=m,X=x)>0.

共同支撑假设也称为正则性 (positivity) 或协变量重叠假设。它要求给定 (M,X)(M,X) 时接受与不接受处理的条件概率均严格大于 0，并蕴含一个更弱的条件 Pr⁡(D=d∣X=x)>0Pr(D=d∣X=x)>0：处理在 XX 下不能是确定性的，否则就找不到处理组与对照组之间在 XX 意义上可比的个体。由贝叶斯定理，假设 3 还蕴含：给定 (D,X)(D,X) 时中介的条件概率（离散情形）或条件密度（连续情形）处处为正——中介在处理状态下同样不能是确定性的。假设 1–3 是因果中介文献中的标准假设，见 Imai, Keele, and Yamamoto (2010)、Tchetgen Tchetgen and Shpitser (2012)、Huber (2014)。

在上述假设下，Tchetgen Tchetgen and Shpitser (2012) 给出了反事实量 E[Y(d,M(1−d))]E[Y(d,M(1−d))] 基于有效得分函数的识别结果：E[Y(d,M(1−d))]=E[ψd]E[Y(d,M(1−d))]=E[ψd]，其中

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。