源自风暴统计网:一键统计分析与绘图的网站
上一篇我们学习了倾向得分方法,明白了如何通过平衡协变量分布来模拟随机化实验的效果。
但倾向得分方法仍然依赖于Logistic回归等传统模型来估计倾向得分。
当协变量数量激增、变量之间关系复杂、非线性与交互效应普遍存在时,传统模型的设定能力面临挑战。
那有没有一种方法,能够借助现代计算技术,在保持因果推断严谨性的同时,应对高维、非线性、复杂交互的数据环境?
有。这就是今天要讲的主题——机器学习与因果推断的结合。
研究环境的变化与两类问题的区分
正文开始之前,我们先来了解一下研究环境的变化。
数据规模不断扩大,样本来源更加多样。
协变量数量显著增加,变量维度越来越高。
数据关系更加复杂,非线性与交互效应普遍存在。
研究目标逐渐从描述现象转向支持实际决策。
传统低维、线性建模方法在这样的环境下,面临着越来越多的挑战。
在这种背景下,我们需要清晰区分统计分析中两类本质不同的问题:预测问题和因果问题。
√预测问题
预测问题关注的是在给定信息条件下结果是否会发生,强调相关性结构与预测准确性。
表现为:在给定协变量X的情况下预测结果Y。
研究目标是学习条件分布P(Y|X)或条件期望E(Y|X)。
模型的优劣主要通过预测误差进行评估,常见评价指标包括MSE、AUC、对数损失等。模型结构本身不要求反映真实的数据生成机制。
√因果问题
因果问题关注的是当主动改变某个变量时结果是否会改变,强调干预效应与反事实比较。
表现为:干预变量A对结果Y的影响。
研究者希望比较同一对象在不同干预状态下的结果,典型问题包括:如果接受处理,与不接受处理相比结果是否不同?
因果问题关注的是结果差异,而非单一结果的预测,这类问题天然涉及反事实结果。
两类问题的研究目标和评价标准并不相同。
相关性≠因果关系
这是一个必须反复强调的核心观点:高预测准确性并不保证因果判断正确。
预测模型学习的是变量之间的统计关联,而相关性可能来自混杂、选择偏差或反向因果。在没有因果结构约束的情况下,模型无法区分因果方向。
因果问题回答的是“如果我干预,会发生什么变化”。
举一个经典的例子:冰淇淋销量与溺水人数的关系。
冰淇淋销量上升时↑,溺水人数也上升↑,两者高度相关。
但如果据此推断“冰淇淋导致溺水”,那就是错误的。
真相是:温度或季节是共同原因,即混杂因素。
从这个案例中,我们可以得出:预测模型可以利用相关性,但因果推断必须处理混杂结构。
人工智能、机器学习与深度学习的基本概率
在进入正题之前,我们先厘清三个容易混淆的概念。
人工智能(AI)是让机器表现出“智能行为”的总称。
机器学习(ML)是实现人工智能的一类数据驱动方法。
深度学习(DL)是机器学习中的一类模型方法。
三者的关系是:
√那么,什么是机器学习?
机器学习是一类从数据中自动学习规律的方法。
给定输入变量X,学习预测输出Y。
研究目标是在未知数据上最小化预测误差。
模型不要求反映真实的数据生成机制,强调预测性能与泛化能力,而非因果解释。
机器学习的形式化目标是:通过最小化损失函数来学习模型参数或结构。
回归问题常使用平方误差作为损失函数,分类问题常使用对数损失或交叉熵。模型训练过程中通常加入正则化以控制复杂度。模型优劣通过样本外预测性能进行评估。
机器学习的一般建模流程包括四个步骤:
第一步,数据划分,分为训练集、验证集和测试集。
第二步,模型选择与超参数调优。
第三步,交叉验证评估预测性能。
第四步,选择预测表现最优的模型。
整个流程关注的是预测效果而非因果解释。
传统统计方法与机器学习的对比
传统统计与机器学习在多个维度上存在明显区别。
√机器学习的优势
机器学习的优势主要体现在高维与自动化以及减少模型设定负担两个方面。
在高维与自动化方面,机器学习可处理高维协变量(变量多、交互多)。
内置变量选择或特征筛选(如正则化、树分裂、嵌入式选择),能够降低过拟合风险。
自动捕捉非线性与复杂交互(如树模型、Boosting、神经网络等)。
可扩展性强,适用于大样本、并行、分布式计算。
在减少模型设定负担方面,传统回归常依赖线性假设、函数形式指定、交互项手工加入。
机器学习更像“函数逼近器”,对形式错设在预测意义上更加鲁棒。对复杂数据结构(文本、图像、序列)有天然优势。
在工程应用中可快速迭代:数据更新、模型更新、性能更新。
√机器学习的局限
尽管机器学习在预测方面表现出色,但它也有明显的局限性。
机器学习主要学习的是统计相关性,无法区分混杂因素与真实因果效应。
干预后数据分布可能发生变化,预测模型可能失效。
高预测能力的变量不一定是可干预变量。
复杂模型往往缺乏可解释性。
更重要的是:高预测不等于好决策;强预测因子不一定是可干预因素;准确识别高风险人群,不等于能够有效降低风险。
决策关心的是:改变可控变量是否改变结果,即可干预性。
一句话总结:因果推断是决策语言,机器学习是建模工具。
因果推断:定义、框架与识别
接下来我们转向因果推断。因果推断是研究干预对结果的因果影响的一类方法。
它基于反事实思想来定义因果效应,比较不同处理状态下的潜在结果。
输出是因果效应而非预测值。
因果推断在实际应用中覆盖面很广,包括政策评估、医疗决策和社会科学研究等。
潜在结果框架是因果推断的理论基石。在这个框架下,每个个体都有两个潜在的结局:
Y(1)表示接受处理A=1时的结果,Y(0)表示未接受处理A=0时的结果。
基于此,可以定义个体因果效应τi = Y(1) - Y(0),以及平均因果效应ATE = E[Y(1) - Y(0)]。
然而,现实中的根本困境在于:同一时间只能观察到一个潜在结果,另一个永远无法被观测到。反事实的不可观测性,正是因果推断面临的核心挑战。
因果推断不是简单地“拟合一个模型”,而是要确保效应可被识别。
常见的识别思路有两种:
随机对照试验依靠随机化来消除混杂,这是最理想的情况;
而观察性研究则必须依赖一定的假设或研究设计(如可交换性假设等)。
这里需要区分两个概念:识别解决的是“理论上能否得到因果效应”的问题,而估计解决的是“用什么样的统计方法把它算出来”的问题(如回归、IPW、G方法等)。
从优势来看,因果推断能够回答“干预是否有效”这一核心问题,而不是仅仅停留在“是否相关”的层面。
它可以支持政策、治疗、产品策略的效果评估,具有较强的可解释性,能够明确效应的大小和方向,以及告诉我们对哪些人群有效。
此外,因果推断还可以用于反事实推演和资源配置决策,如成本收益分析和优先级排序,同时它也强调结果稳健性,包括敏感性分析和识别假设的讨论。
当然,因果推断也面临不少挑战。观察性数据中普遍存在混杂变量,这是最主要的困难。此外,非线性与交互关系使得简单模型容易错设,而因果效应的估计结果又高度依赖模型的设定是否合理。
机器学习与因果推断的结合
需要明确的是,机器学习并不是直接用来“计算因果效应”的,它的角色是帮助估计一些“中间量”。
具体来说,机器学习可以估计两类中间量:
一是倾向性评分P(A|X),即个体在给定协变量条件下接受处理的可能性;
二是结果模型E(Y|A,X),即结局如何由处理变量和协变量共同决定。
而因果推断的角色则是:定义清楚目标因果效应(如ATE或ATT),通过因果假设来保证效应在理论上可以被识别,再将这些估计量整合起来,最终得到因果效应的估计值。
当机器学习与因果推断结合起来,会带来多重优势。
√在减少模型错设偏差方面,机器学习能够自动捕捉非线性与交互关系,从而降低因模型形式错设所导致的偏倚。
√在提升稳健性方面,双重稳健估计量(如AIPW、TMLE)天然兼容机器学习方法。这意味着即使其中一个模型(倾向得分模型或结局模型)被错误设定,估计结果仍然可以保持一致。
√在应对高维混杂变量方面,在假设无混杂成立的前提下,机器学习能够提高对高维混杂因素的建模能力,从而降低模型错设带来的偏倚。
√在支持异质性效应分析方面,机器学习可以识别不同亚组之间的处理效应差异,为个性化干预与精准决策提供基础。
需要特别强调的是:机器学习本身并不引入新的因果信息。它无法修复未观测混杂、测量误差或选择偏差等问题。因果识别所需要的假设,仍然必须由研究者基于领域知识进行论证和说明。
本章总结
今天我们系统学习了机器学习与因果推断的结合。
我们看到,机器学习在预测与建模方面具有显著优势,能够自动处理高维、非线性、复杂交互的数据。
同时我们也明确了,预测问题与因果问题在研究目标上是根本不同的:预测关注的是相关性,而因果关注的是干预效应。
因果推断在干预与决策问题中具有不可替代的地位,它回答的是“如果改变某个变量,结果会怎样”这一核心问题。
现代因果分析确实需要借助机器学习来提升建模能力和结果稳健性,但机器学习并不能替代因果识别的假设,两者之间的关系是工具与框架的关系,各有分工、相辅相成。
下一篇,我们将继续深入机器学习在因果推断中的应用,重点介绍机器学习的具体用途以及Super Learner方法。敬请期待!
关于郑老师团队及公众号
郑老师团队统计服务,为医学生、医护工作者学术研究提供统计支持!
1.医院数据真实世界研究
影响因素分析与焦点因素分析策略;倾向性评分方法匹配、逆概率加权(IPTW)、重叠加权及后续效应值估计;亚组分析,交互作用P值及森林图;中介交互分析、因果中介分析;限制性立方样条、阈值效应分析、区段回归分析;
2.临床预测模型(二分类及生存)
基于回归方法的预测模型构建与验证,绘制列线图;机器学习预测模型构建与验证;可解释性SHAP绘图;缺失数据下的预测模型;预测模型在线网站建设;动态预测模型;影像组学预测模型
3.纵向数据分析
重复测量ANOVA、混合线性模型LMM、广义估计方程GEE、广义线性混合效应模型GLMM、潜增长曲线模型LGCM;群组轨迹模型(GBTM)/潜类别增长模型(LCGA)、潜类别混合增长模型(GMM/LGMM)、多轨迹模型(GBMTM);聚类分析;时依协变量模型;多状态模型;
4.高级因果推断方法实践
参数G方法、双重稳健估计进行因果推断:目标最大似然估计(TMLE);机器学习、超级机器学习进行因果推断;治疗效果异质性分析(HTE)与因果森林;
5.公共数据库数据挖掘
NHANES数据挖掘、CHARLS等老年库数据挖掘、MIMIC数据挖掘,多变量孟德尔随机化MR、中介MR、肠道菌群MR、药靶MR、网络药理学结合MR、单细胞RNA测序分析结合MR
需以上统计服务,请联系郑老师团队(微信:sas555777)