查看更多
密码过期或已经不安全,请修改密码
修改密码
壹生身份认证协议书
同意
拒绝
同意
拒绝
同意
不同意并跳过
李玉倩1 程 虎1 崔 建2 王轶希3 李文哲2
DOI:10.3969/j.issn.1006-298X.2025.06.006
[基金项目]省部共建中亚高发病成因与防治国家重点实验室开放课题资助项目(SKL-HIDCA2024-RWS2);新疆医科大学校级自然科学青年研究项目(2024XYZR42);新疆维吾尔自治区研究生科研创新项目(XJ2025G160)
[作者单位]1新疆医科大学第一附属医院麻醉科(乌鲁木齐,830054),2重症医学科,3脊柱微创与精准骨科
[通信作者]李文哲(E-mail:liwenzhe2016@qq.com)
摘 要 目的:基于机器学习构建老年糖尿病脓毒症患者并发急性肾损伤(AKI)的预测模型,以助力临床实践中高风险患者的识别。 方法:从MIMIC-Ⅳ数据库,筛选纳入老年糖尿病脓毒症患者,以是否发生AKI定义患者结局,利用Boruta算法、Logistic回归和Lasso回归筛选模型变量,通过Logistic回归、梯度提升机、随机森林、K近邻法、神经网络、极致梯度提升(XGBoost)等10种机器学习算法构建临床预测模型,经超参数优化后选择最佳模型进行沙普利可加性解释(SHAP)分析。 结果:研究最终纳入5 984例老年糖尿病脓毒症患者,综合4种变量筛选算法归纳出急性生理学评分Ⅲ(APS Ⅲ)、序贯器官衰竭评估(SOFA)评分、使用机械通气、体重、淋巴细胞计数、血乳酸、收缩压、pH值、动脉血氧分压及使用血管活性药物10项指标并建模。其中,XGBoost模型在训练集、验证集的曲线下面积(AUC)分别为0.838、0.804,决策曲线及校准曲线验证该模型的临床决策净获益显著且预测稳定性良好。SHAP分析揭示了APS Ⅲ评分具有最高的模型贡献,各项指标的临床可及性强,XGBoost模型能够快速识别老年糖尿病脓毒症患者发生AKI风险的概率。 结论:基于XGBoost算法构建并验证老年糖尿病脓毒症患者并发AKI风险预测模型,具有良好的模型预测效能和稳定性,可助力于此类患者风险因素的评估及诊疗分层,从而优化资源配置,改善患者预后。
关键词 脓毒症 糖尿病 老年患者 急性肾损伤 预测模型
LI Yuqian1, CHENG Hu1, CUI Jian2, WANG Yixi3, LI Wenzhe2
1Department of Anesthesiology, the First Affiliated Hospital of Xinjiang Medical University, Urumqi 830054, China
2Department of Critical Care Medicine, the First Affiliated Hospital of Xinjiang Medical University, Urumqi 830054, China
3Department of Minimally Invasive Spineand Precision Orthopedics, the First Affiliated Hospital of Xinjiang Medical University, Urumqi 830054, China
Corresponding author:LI Wenzhe(E-mail: liwenzhe2016@qq.com)
ABSTRACTObjective:The objective is to develop a machine learning model that predicts acute kidney injury (AKI) in elderly diabetic patients with sepsis, aiding clinicians in more effectively identifying high-risk patients. Methodology:Based on the MIMIC-Ⅳ database, elderly diabetic patients with sepsis were selected, with acute kidney injury (AKI) as the outcome defining the patients’ condition. The Boruta algorithm, Logistic Regression, and Lasso Regression were used to identify model variables. Clinical prediction models were built using 10 machine learning algorithms, including Logistic Regression, Gradient Boosting Machine, Random Forest, K-Nearest Neighbors, Neural Networks, and Extreme Gradient Boosting (XGBoost). After hyperparameter optimization, the best model was selected for SHAP analysis. Results:The study ultimately included 5 984 elderly diabetic patients with sepsis. Through the application of four variable selection algorithms, ten indicators were identified for modeling: APS Ⅲ score, SOFA score, mechanical ventilation use, weight, lymphocyte count, serum lactate, systolic blood pressure, pH, arterial oxygen pressure, and the use of vasopressors. The XGBoost model achieved areas under the curve (AUC) of 0.838 and 0.804 for the training and validation sets, respectively. Decision curve analysis and calibration curves confirmed that the model provided significant net clinical benefit and exhibited good prediction stability. SHAP analysis revealed that the APS Ⅲ score made the highest contribution to the model. Given the strong clinical accessibility of the identified indicators, the XGBoost model can quickly identify the probability of AKI risk in elderly diabetic sepsis patients. Conclusion:A risk prediction model for AKI in elderly diabetic patients with sepsis was developed and validated based on the XGBoost algorithm. The model demonstrated strong predictive performance and stability, providing valuable support in assessing risk factors and stratifying treatment for these patients, thereby optimizing resource allocation and improving patient outcomes.
Keywordssepsis diabetes mellitus elderly patients acute kidney injury prediction model
脓毒症是指宿主对感染的免疫炎症反应失衡进而导致器官功能障碍,肾脏是最常见的受累器官之一[1],脓毒症相关急性肾损伤(AKI)与患者不良预后密切相关[2],其病理生理机制尚未完全明确[3]。糖尿病脓毒症患者发生AKI风险及接受血液净化治疗比例更高,病死率更高[4-5]。同时老年脓毒症患者的死亡率显著高于年轻患者[6]。本研究拟利用重症公共数据库中的大数据,开发基于机器学习的预测模型,对老年糖尿病脓毒症患者并发AKI风险因素进行识别,以期能够早期识别此类高危患者进行临床干预,以改善其临床预后[7]。
研究对象 本研究基于《医学信息集市数据库第四版(MIMIC-Ⅳ)版本2.2》数据库构建老年糖尿病脓毒症患者并发AKI风险的预测模型。MIMIC-Ⅳ是由麻省理工学院开发和管理的通用大型数据库,该数据库是大样本重症疾病的公共数据库之一[8]。本团队一位研究成员符合数据库访问要求(编号57264471),并负责数据提取(图1)。
图1 老年糖尿病脓毒症患者筛选纳入分析流程图
MIMIC-Ⅳ:医学信息集市数据库第四版;AKI:急性肾损伤;ICU:重症监护病房;Boruta(XGBoost和RFgini):基于极致梯度提升和随机森林基尼指数的布尔塔算法;Adaboost:自适应增强算法;CatBoost:分类提升树;GBM:梯度提升机;LightGBM:轻量级梯度提升机;XGBoost:极致梯度提升;KNN:K近邻法;ROC:受试者工作特征曲线;DCA:决策曲线;SHAP:沙普利可加性解释
入选标准:根据脓毒症3.0定义对数据库中所有患者进行筛选,纳入年龄≥65岁的老年糖尿病脓毒症患者[9]。排除标准:(1)非首次入住重症监护病房(ICU)的患者;(2)恶性肿瘤患者;(3)艾滋病患者;(4)重要数据缺失的患者。本研究经新疆医科大学第一附属医院医学伦理委员会批准通过(伦理审批号K202404-45)。
数据筛选与特征提取 本研究通过结构化查询语言(SQL)提取患者资料。潜在变量的提取包括人口统计学、基础合并症、实验室检验等,并计算患者入院时的病情严重程度评分,包括急性生理学评分Ⅲ(APS Ⅲ)、格拉斯哥昏迷评分(GCS)、序贯器官衰竭评估(SOFA)评分、急性生理与慢性健康评分Ⅱ(APACHE Ⅱ)等。随访从脓毒症起病之日开始,到起病第 7 天结束,筛查所有符合AKI诊断标准的患者,结局定义为发生AKI[3]。所有实验室变量和疾病严重程度评分均从患者进入ICU后24 h内生成的数据中提取。
统计分析与模型构建 符合正态分布的定量变量以均数±标准差表示,使用t检验进行比较;不符合正态分布的定量变量以中位数(四分位间距)表示,使用Wilcoxon秩和检验进行比较;分类变量以频率和百分比表示,采用卡方检验进行比较。根据AKI发生与否进行分组,对缺失值>20%的变量予以剔除,缺失值<20%的变量使用多变量链式方程插补法(MICE)包分类与回归树(CART)方法进行多重插补。基于插补后数据集通过Boruta[极致梯度提升(XGBoost)和RFgini算法]、Logistic回归和Lasso回归方法筛选关键特征,通过韦恩图分析筛选出关键特征子集[10]。基于特征变量构建包括Logistic回归、梯度提升机(GBM)、LightGBM、Adaboost、CatBoost、随机森林、K近邻法(KNN)、神经网络(NN)、XGBoost、支持向量机(SVM)在内的10种机器学习模型预测患者AKI发生风险,并对模型进行超参数优化(参数设置详见https://github.com/ban331/R)[11]。通过受试者工作特征曲线(ROC)、临床决策曲线(DCA)、校准曲线、准确率、敏感度、特异度、精确率及F1分数评价指标选择最优模型,基于沙普利可加性解释(SHAP)分析对最优模型提取到的特征变量重要性排序,并运用局部解释进行个性化评估和分析。本研究使用《R软件(4.4.3版)》完成统计分析,P<0.05为差异具有统计学意义。
基线资料 研究中纳入5 984例老年糖尿病脓毒症患者,1 248例(20.86%)在7 d内并发AKI。与非AKI患者相比,AKI患者在感染源、合并症(慢性肺疾病、充血性心力衰竭、高血压等)、入院时的病情严重程度评分、生命体征等方面存在显著差异(P<0.05)(表1)。AKI患者实验室指标,包括白细胞计数、血红蛋白、血清肌酐、血气分析、肝功能及凝血功能等较非AKI患者更差(P<0.05)(表2)。
表1 患者基线资料
ARDS:急性呼吸窘迫综合征;SOFA:序贯器官功能衰竭评估评分;APS Ⅲ:急性生理评分Ⅲ;GCS:格拉斯哥昏迷评分;APACHE Ⅱ:急性生理与慢性健康评估Ⅱ;LODS:Logistic器官功能障碍评分;ICU:重症监护病房
表2 患者实验室检验指标
AKI:急性肾损伤;PaO2:动脉血氧分压;PaCO2:动脉血二氧化碳分压;INR:国际标准化比值;PT:凝血酶原时间;APTT:活化部分凝血活酶时间
筛选特征变量 基于患者AKI发生与否的总体数据集,将两组间比较P<0.001的临床数据变量纳入不同算法筛选特征变量。XGBoost-Boruta算法筛选出15个特征变量(图2A); RFgini-Boruta筛选出21个特征变量(图2B);Logistic回归筛选出24个特征变量(图2C);Lasso回归筛选出18个特征变量(图2D、E);韦恩图取3种及以上算法的交集,共筛选出10个重要特征变量包括:APS Ⅲ评分、SOFA评分、使用机械通气、体重、淋巴细胞计数、血乳酸、收缩压、pH值、动脉血氧分压及使用血管活性药物(图2F)。
图2 基于XGBoost-Boruta、RFgini-Boruta、Logistic和Lasso回归方法的特征筛选
XGBoost-Boruta:基于极致梯度提升的布尔塔算法;RFgini-Boruta:基于随机森林基尼指数的布尔塔算法;APSⅢ:急性生理评分Ⅲ;SOFA:序贯器官功能衰竭评估评分;LODS:Logistic器官功能障碍评分;APACHEⅡ:急性生理与慢性健康评分Ⅱ;APTT:活化部分凝血活酶时间;A:XGBoost-Boruta算法筛选出15个特征变量;B:RFgini-Boruta筛选出21个特征变量; C:Logistic回归筛选出24个特征变量;D:Lasso回归筛选出18个特征变量;E:通过10折交叉验证优化Lasso模型的正则化参数(λ);F:韦恩图取3种及以上算法的交集变量,共筛选出10个重要特征变量
模型的构建及评价 以随机分配的70%数据进行机器学习模型的构建,随机森林和KNN模型存在显著过拟合风险,XGBoost模型表现最佳,ROC曲线下面积值为0.838(图3A)。DCA曲线分析中,XGBoost模型的临床决策净获益最佳,测试集中保持了稳定的净获益,说明模型泛化性良好(图3B),校准曲线则提示XGBoost模型偏离对角线的校准误差最小,具有良好的预测稳定性(图3C)。图3D展示了10种模型在各项评价指标中的综合表现,其中XGBoost模型预测价值综合性能最佳。图3E~H展示了各模型在分配的30%验证集数据中的预测效能,XGboost模型较其他模型的综合效能更佳,故XGBoost模型被确认为最优预测模型。
图3 各机器学习模型的预测性能
SVM:支持向量机;GBM:梯度提升机;Neural Network:神经网络;Random Forest:随机森林;XGBoost:极致梯度提升;KNN:K近邻法;Adaboost:自适应增强算法;LightGBM:轻量级梯度提升机;CatBoost:分类提升树;A:训练集的ROC曲线;B:训练集的决策曲线;C:训练集的校准曲线;D:归一化雷达图展示各模型在训练集中的准确率、敏感度、特异度、精确率和F1分数;E:验证集的ROC曲线;F:验证集的决策曲线;G:验证集的校准曲线;H:归一化雷达图展示各模型在验证集的准确率、敏感度、特异度、精确率和F1分数
SHAP分析解释模型效能 图4A展示出XGBoost模型中特征变量重要性的SHAP均值,结果显示,APS Ⅲ评分对预测结果的贡献最大,其次为SOFA评分和使用机械通气。图4B展示了各特征变量值的分布,其中高体重、高APS Ⅲ和SOFA评分、使用机械通气和血管活性药物、血乳酸升高、低收缩压、低动脉血氧分压、淋巴细胞计数减少和pH值降低均增加老年糖尿病脓毒症患者AKI的发生风险。瀑布图通过临床实例解析XGBoost模型预测价值的特征贡献(图4C)。
图4 XGBoost模型的SHAP分析结果
APSⅢ:急性生理评分Ⅲ;SOFA:序贯器官功能衰竭评估评分;SHAP:沙普利可加性解释;XGBoost:极致梯度提升;A:条形图显示10个重要变量的平均SHAP值;B:蜂群图可视化10个关键变量的SHAP值分布;C:SHAP瀑布图展示某病例中各特征的贡献度
本研究基于10种机器学习算法探索构建老年糖尿病脓毒症患者并发AKI风险的预测模型,其中XGBoost模型表现出最佳的预测性能。XGBoost基于梯度提升框架,通过连续训练新的弱学习器纠正错误,进而以加权组合构成强学习器,具有灵活的高性能和可扩展性,是构建临床预测模型的常用算法[12]。本研究结果显示,纳入10项特征指标及疾病严重程度评分的XGBoost模型有助于临床早期识别患者并发AKI的风险。
APS Ⅲ评分和SOFA评分是ICU常用疾病严重程度的评分系统[13-14]。诸多研究结果表明,SOFA评分与重症脓毒症患者的28 d病死率显著相关[13, 15]。SOFA评分不仅反映脓毒症患者的疾病严重程度,且能有效预测患者不良预后及并发症的发生,其中针对肾脏功能的评价是SOFA评分的重要组成[9]。也有研究表明,通过量化患者的生理参数能够有效评估脓毒症患者的严重性和死亡风险,APS Ⅲ评分亦包含肾脏功能评估,也是脓毒症患者预后评估的有力工具之一[16]。因此上述两项评分对于本研究中XGBoost模型的贡献度最高。再者,基线指标中体重对AKI发生的预测具有重要意义。有研究显示,高体重是2型糖尿病和代谢综合征的主要危险因素,而这两种疾病均与肾脏功能损害密切相关,故可能会增加AKI的发生风险[17]。
血压是重症患者治疗中高频实时的监测内容之一,收缩压作为心脏功能及器官灌注的关键评价指标,其突然变化或是趋势演变均能直观反映出患者的疾病严重程度和休克的发生发展,是临床医护人员制定个体化治疗方案的重要参照标准[18]。对于脓毒症,尤其是脓毒性休克患者,即便是灌注压的短时降低也会导致肾脏功能损伤,而血管活性药物则是纠正低血压改善灌注的重要手段[19]。另有研究发现,在脓毒性休克诊断后延迟使用血管活性药物治疗会显著增加患者的病死率,血管活性药物的使用是脓毒症患者病情演变的有效标志[20]。
众所周知,基于病理生理机制改变,脓毒症患者常表现为低氧血症,动脉血氧分压是其主要诊断标准,机体组织器官低灌注及缺血缺氧的时间与患者预后息息相关,可能导致包括肾脏在内的多器官功能损伤,故需要紧急干预治疗[21]。机械通气是脓毒症患者治疗中的常见措施,尤其是在并发呼吸衰竭时,由于正压机械通气生理的改变,此类患者在炎症反应和器官交互作用下,AKI的发生率明显高于非机械通气患者[22]。临床上需要密切监测机械通气患者的肾功能,并根据病情调整机械通气参数和其他支持治疗方案,以降低AKI的风险[23]。
乳酸持续升高是患者发生器官功能障碍的重要标志物,血乳酸监测作为脓毒症集束化治疗策略的重要组成,是临床调整相关治疗策略的主要参考指标之一[24]。与此同时,脓毒症继发代谢性酸中毒时pH值降低主要由于患者组织器官因灌注不足而发生严重的无氧糖酵解,常预示患者高死亡风险[25]。与普通脓毒症患者相比,老年糖尿病患者在脓毒症状态下的先天性免疫反应和适应性免疫反应功能显著下降,淋巴细胞计数是衡量机体免疫功能的重要标志物,其下降常提示患者预后不良[26]。另有研究明确,血流动力学不稳定的糖尿病脓毒症患者免疫系统的改变可直接影响疾病的病理生理演变及预后[27-28]。
综合相关研究结果可见,基于机器学习结合ICU的常见评分与指标,能够早期识别老年糖尿病脓毒症患者发生AKI的风险,有助于早期的预防干预,但本研究仍存诸多局限性。(1)本研究仅基于单中心数据进行模型的构建,模型的泛化能力仍待进一步验证;(2)相关机器学习的算法优化仅基于网格搜索法进行,未来亦可引入更多新方法进一步完善模型性能;(3)老年糖尿病脓毒症作为临床的特殊亚型,其预测模型的外推性需要更多研究验证。
小结:本研究基于临床常见指标及评分通过XGBoost算法构建并验证了老年糖尿病脓毒症患者并发AKI风险的预测模型,具有良好的模型预测效能和稳定性,可助力于此类患者风险因素的评估及诊疗分层,从而优化资源配置,改善预后。
参考文献
【引用本文】李玉倩、程虎、崔建、王轶希、李文哲. 机器学习构建老年糖尿病脓毒症患者并发急性肾损伤风险预测模型[J]. 肾脏病与透析肾移植杂志, 2025, 34(6): 541-548.
LI Yuqian, CHENG Hu, CUI Jian, WANG Yixi, LI Wenzhe. Development and validation of machine learning models for predicting acute kidney injury in diabetic septic patients[J]. Chinese Journal of Nephrology, Dialysis & Transplantation, 2025, 34(6): 541-548.

查看更多