news 2026/5/20 23:54:06

eClinMed 遵义医科大学附属医院:肺癌术后肺部并发症可解释机器学习预测模型的开发与验证:一项机器学习研究

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
eClinMed 遵义医科大学附属医院:肺癌术后肺部并发症可解释机器学习预测模型的开发与验证:一项机器学习研究

01

文献信息

本次分享的文献是由遵义医科大学附属医院护理部和胸外科近日(2025年8月1日)在柳叶刀子刊《eClinicalMedicine》(中科院1区,IF=10.0)上发表的研究“Development and validation of an explainable machine learning model for predicting postoperative pulmonary complications after lung cancer surgery: a machine learning study”即肺癌术后肺部并发症预测的可解释机器学习模型的开发与验证:一项机器学习研究,开发并验证了一种基于机器学习的可解释模型,用于预测肺癌(LC)患者术后肺部并发症(PPCs)风险。通过多步骤特征筛选、12种独立ML模型和26种集成模型对比,最终确定SVM+DT堆叠集成模型为最优方案,并利用SHAP方法实现模型可解释性。

图 1:研究工作流程图

阶段 1:风险因素池构建:通过系统评价筛选46个潜在风险因素,Meta分析确认12个,结合临床经验初步扩充变量池。

阶段 2:变量优化与数据准备:经两轮Delphi法(15名专家)达成共识,确定67个候选变量;纳入回顾性(883例)与前瞻性(308例)队列,进行数据清洗(缺失值填充、标准化)与类别平衡(SMOTETomek法)。

阶段 3:模型开发与验证:多步骤特征筛选(单变量分析→共线性分析→ML算法排序→RFE→专家共识)确定9个关键变量;开发12个独立模型与26个堆叠模型,经内部验证(回顾性队列8:2拆分)筛选DT+SVM为最优模型;通过前瞻性队列验证性能,最终用SHAP方法解析模型。

02

研究背景及目标

研究背景

  • 疾病负担:肺癌是全球高发恶性肿瘤,手术切除是早期肺癌的核心根治手段,但术后肺部并发症(PPCs,含肺不张、肺炎等)发生率达7.4%~48%,可延长住院时间、增加30天再入院率及死亡率,缩短患者生存期并降低生活质量。

  • 现有模型缺陷:传统预测模型多依赖逻辑回归或列线图,存在变量选择依赖临床经验、预测因子有限、针对特定人群(如老年患者)、缺乏循证依据等问题;现有ML模型存在“黑箱”特性,缺乏可解释性与前瞻性验证,临床适用性受限。

  • 研究契机:机器学习在医疗预测中展现优势,SHAP方法可破解“黑箱”问题,亟需构建循证驱动、可解释、经多阶段验证的PPCs预测模型。

研究目标

  • 开发12个独立ML模型及多种堆叠集成模型,基于准确率、敏感性、AUC等指标筛选肺癌术后PPCs的最优预测模型。

  • 通过内部验证(回顾性队列拆分)与前瞻性验证(独立队列)确保模型可靠性,同时采用SHAP方法解析各预测因子对PPCs风险的贡献。

03

数据和方法

研究数据

回顾性队列:883例(2022.01–2023.10),PPCs发生率35.4%

前瞻性队列:308例(2023.11–2024.07),PPCs发生率29.5%

纳入变量:经Meta分析、Delphi专家咨询与临床审核,最终确定9个关键特征

年龄、手术时长、Charlson合并症指数(CCI)、肿瘤分期、一氧化碳弥散量(DLCO)、术中输液量(IFIV)、红细胞分布宽度(RDW-CV)、BMI、吸烟年数(共9个)。

图 4:前瞻性队列患者筛选流程图


研究方法

数据清理与平衡(SMOTETomek方法处理类别不平衡)。

特征筛选:通过Meta分析确定46个候选变量→德尔菲法(15名专家)筛选至67个→单因素分析、共线性分析(VIF<10)→RFE(递归特征消除)结合9种ML算法重要性评分→最终保留9个变量。

建模:12种独立ML算法+26种堆叠集成模型。

独立模型(12 种):逻辑回归、LightGBM、反向传播神经网络(BPNN)、随机森林(RF)、高斯朴素贝叶斯(GNB)、K 近邻(KNN)、决策树(DT)、支持向量机(SVM)、极端梯度提升(XGBoost)、偏最小二乘判别分析(PLS-DA)、梯度提升决策树(GBDT)、Boruta 算法。

堆叠集成模型(26 种):筛选 5 个基础模型(GBDT、RF、逻辑回归、DT、SVM),构建不同组合的堆叠模型,通过网格搜索 + 10 折交叉验证调参。

验证:

内部验证(8:2分割,AUC、准确率、敏感度、特异度、F1等指标)。

前瞻性验证(AUC、Hosmer–Lemeshow检验、校准曲线、DCA)。

可解释性:采用SHAP方法进行全局和个体水平解释。

04

实验结果图

图 2:12个机器学习模型的ROC曲线

展示12种独立模型的ROC曲线(Boruta、BPNN、DT、GBDT、GNB、KNN、LightGBM、Logit、PLS-DA、RF、SVM、XGBoost)。

图 3:独立基础模型与堆叠集成模型的综合排名

训练集排名(图3A):前5名均为堆叠模型,DT+SVM排名第一,GBDT+DT+逻辑回归+RF、DT+SVM+逻辑回归分列二、三位;最优独立模型GBDT排名第6,显著低于堆叠模型。

内部验证集排名(图3B):排名格局与训练集一致,DT+SVM仍居首位,前5名均为堆叠模型,独立模型中仅GBDT、RF进入前10,证实堆叠模型的稳定性与优越性。

模型一致性:DT+SVM在训练集与验证集均排名第一,且与其他高排名堆叠模型的差异无统计学意义(DeLong检验P>0.05),但计算效率更高,成为最优选择。

图 5:基于SHAP方法的模型全局解释图

图5A(SHAP值柱状图,展示特征重要性排序)、图5B(SHAP值点图,展示特征值与SHAP值的分布)、图5C(SHAP依赖图,展示单个特征与PPCs风险的关系)

图 6:基于SHAP方法的模型局部解释图

05

讨论

创新点

  • 首次采用12种独立模型+26种堆叠模型,并结合SHAP解释。

  • 严格的变量筛选流程(Meta分析+Delphi+多算法特征排名)。

  • 内部与前瞻性双验证,提高可靠性。

局限性

  • 单中心研究,样本量有限(尤其是前瞻性队列)。

  • 尚未在真实临床路径中应用,需要多中心大样本外部验证。

临床价值

  • 可用于术前风险预测与干预决策,减少PPCs发生。

  • 对高危患者(老年、手术长、吸烟史长、液体输入量大)可加强监测与优化管理。

技术亮点

  • 结合SMOTETomek解决数据不平衡问题。

  • 应用堆叠集成学习提升模型性能。

  • 引入SHAP方法实现模型可解释性,增强临床可接受度。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/20 23:53:41

观众的消费能力和改装偏好如何?和其他展会相比有什么差异?

在汽车改装文化蓬勃发展的当下&#xff0c;各类展会如繁星般涌现&#xff0c;而APAxpo佛山改装展凭借其独特魅力&#xff0c;在众多展会中脱颖而出。那么&#xff0c;它的观众消费能力究竟如何&#xff1f;又有着怎样与众不同的改装偏好呢&#xff1f;与其他展会相比&#xff0…

作者头像 李华
网站建设 2026/5/20 23:51:26

现货TJA1101AHN/0Z是NXP推出的一款高性能、低功耗的汽车以太网PHY芯片,作为TJA1101A的改进版本,专为车载电子系统设计,支持100BASE-T1标准,具备出色的可靠性与集成度

‌TJA1101AHN/0Z‌ 是NXP&#xff08;恩智浦&#xff09;推出的一款高性能、低功耗的汽车以太网PHY芯片&#xff0c;作为TJA1101A的改进版本&#xff0c;专为车载电子系统设计&#xff0c;支持100BASE-T1标准&#xff0c;具备出色的可靠性与集成度。核心性能与优势&#xff1a;…

作者头像 李华
网站建设 2026/5/20 23:49:40

告别盲调!IDA Pro动态调试中高效下断点的3种策略与实战案例

IDA Pro动态调试实战&#xff1a;精准下断点的三大高阶策略 逆向工程就像一场数字世界的侦探游戏&#xff0c;而动态调试则是我们最强大的放大镜。在CTF竞赛或恶意软件分析中&#xff0c;面对层层加密和混淆的代码&#xff0c;如何快速定位关键逻辑点往往决定了成败。本文将分享…

作者头像 李华
网站建设 2026/5/20 23:46:47

强强联合,共绘未来 | 葛兰创智与中建东北院签署战略合作协议

2026年4月&#xff0c;西安葛兰创智信息科技有限公司&#xff08;以下简称“葛兰创智”&#xff09;与中国建筑东北设计研究院有限公司&#xff08;以下简称“中建东北院”&#xff09;正式签署《战略合作框架协议》。双方将基于“互惠互利、优势互补”的原则&#xff0c;建立长…

作者头像 李华