01
文献信息
本次分享的文献是由遵义医科大学附属医院护理部和胸外科近日(2025年8月1日)在柳叶刀子刊《eClinicalMedicine》(中科院1区,IF=10.0)上发表的研究“Development and validation of an explainable machine learning model for predicting postoperative pulmonary complications after lung cancer surgery: a machine learning study”即肺癌术后肺部并发症预测的可解释机器学习模型的开发与验证:一项机器学习研究,开发并验证了一种基于机器学习的可解释模型,用于预测肺癌(LC)患者术后肺部并发症(PPCs)风险。通过多步骤特征筛选、12种独立ML模型和26种集成模型对比,最终确定SVM+DT堆叠集成模型为最优方案,并利用SHAP方法实现模型可解释性。
图 1:研究工作流程图
阶段 1:风险因素池构建:通过系统评价筛选46个潜在风险因素,Meta分析确认12个,结合临床经验初步扩充变量池。
阶段 2:变量优化与数据准备:经两轮Delphi法(15名专家)达成共识,确定67个候选变量;纳入回顾性(883例)与前瞻性(308例)队列,进行数据清洗(缺失值填充、标准化)与类别平衡(SMOTETomek法)。
阶段 3:模型开发与验证:多步骤特征筛选(单变量分析→共线性分析→ML算法排序→RFE→专家共识)确定9个关键变量;开发12个独立模型与26个堆叠模型,经内部验证(回顾性队列8:2拆分)筛选DT+SVM为最优模型;通过前瞻性队列验证性能,最终用SHAP方法解析模型。
02
研究背景及目标
研究背景
疾病负担:肺癌是全球高发恶性肿瘤,手术切除是早期肺癌的核心根治手段,但术后肺部并发症(PPCs,含肺不张、肺炎等)发生率达7.4%~48%,可延长住院时间、增加30天再入院率及死亡率,缩短患者生存期并降低生活质量。
现有模型缺陷:传统预测模型多依赖逻辑回归或列线图,存在变量选择依赖临床经验、预测因子有限、针对特定人群(如老年患者)、缺乏循证依据等问题;现有ML模型存在“黑箱”特性,缺乏可解释性与前瞻性验证,临床适用性受限。
研究契机:机器学习在医疗预测中展现优势,SHAP方法可破解“黑箱”问题,亟需构建循证驱动、可解释、经多阶段验证的PPCs预测模型。
研究目标
开发12个独立ML模型及多种堆叠集成模型,基于准确率、敏感性、AUC等指标筛选肺癌术后PPCs的最优预测模型。
通过内部验证(回顾性队列拆分)与前瞻性验证(独立队列)确保模型可靠性,同时采用SHAP方法解析各预测因子对PPCs风险的贡献。
03
数据和方法
研究数据
回顾性队列:883例(2022.01–2023.10),PPCs发生率35.4%
前瞻性队列:308例(2023.11–2024.07),PPCs发生率29.5%
纳入变量:经Meta分析、Delphi专家咨询与临床审核,最终确定9个关键特征:
年龄、手术时长、Charlson合并症指数(CCI)、肿瘤分期、一氧化碳弥散量(DLCO)、术中输液量(IFIV)、红细胞分布宽度(RDW-CV)、BMI、吸烟年数(共9个)。
图 4:前瞻性队列患者筛选流程图
研究方法
数据清理与平衡(SMOTETomek方法处理类别不平衡)。
特征筛选:通过Meta分析确定46个候选变量→德尔菲法(15名专家)筛选至67个→单因素分析、共线性分析(VIF<10)→RFE(递归特征消除)结合9种ML算法重要性评分→最终保留9个变量。
建模:12种独立ML算法+26种堆叠集成模型。
独立模型(12 种):逻辑回归、LightGBM、反向传播神经网络(BPNN)、随机森林(RF)、高斯朴素贝叶斯(GNB)、K 近邻(KNN)、决策树(DT)、支持向量机(SVM)、极端梯度提升(XGBoost)、偏最小二乘判别分析(PLS-DA)、梯度提升决策树(GBDT)、Boruta 算法。
堆叠集成模型(26 种):筛选 5 个基础模型(GBDT、RF、逻辑回归、DT、SVM),构建不同组合的堆叠模型,通过网格搜索 + 10 折交叉验证调参。
验证:
内部验证(8:2分割,AUC、准确率、敏感度、特异度、F1等指标)。
前瞻性验证(AUC、Hosmer–Lemeshow检验、校准曲线、DCA)。
可解释性:采用SHAP方法进行全局和个体水平解释。
04
实验结果图
图 2:12个机器学习模型的ROC曲线
展示12种独立模型的ROC曲线(Boruta、BPNN、DT、GBDT、GNB、KNN、LightGBM、Logit、PLS-DA、RF、SVM、XGBoost)。
图 3:独立基础模型与堆叠集成模型的综合排名
训练集排名(图3A):前5名均为堆叠模型,DT+SVM排名第一,GBDT+DT+逻辑回归+RF、DT+SVM+逻辑回归分列二、三位;最优独立模型GBDT排名第6,显著低于堆叠模型。
内部验证集排名(图3B):排名格局与训练集一致,DT+SVM仍居首位,前5名均为堆叠模型,独立模型中仅GBDT、RF进入前10,证实堆叠模型的稳定性与优越性。
模型一致性:DT+SVM在训练集与验证集均排名第一,且与其他高排名堆叠模型的差异无统计学意义(DeLong检验P>0.05),但计算效率更高,成为最优选择。
图 5:基于SHAP方法的模型全局解释图
图5A(SHAP值柱状图,展示特征重要性排序)、图5B(SHAP值点图,展示特征值与SHAP值的分布)、图5C(SHAP依赖图,展示单个特征与PPCs风险的关系)
图 6:基于SHAP方法的模型局部解释图
05
讨论
创新点
首次采用12种独立模型+26种堆叠模型,并结合SHAP解释。
严格的变量筛选流程(Meta分析+Delphi+多算法特征排名)。
内部与前瞻性双验证,提高可靠性。
局限性
单中心研究,样本量有限(尤其是前瞻性队列)。
尚未在真实临床路径中应用,需要多中心大样本外部验证。
临床价值
可用于术前风险预测与干预决策,减少PPCs发生。
对高危患者(老年、手术长、吸烟史长、液体输入量大)可加强监测与优化管理。
技术亮点
结合SMOTETomek解决数据不平衡问题。
应用堆叠集成学习提升模型性能。
引入SHAP方法实现模型可解释性,增强临床可接受度。