源自风暴统计网一键统计分析与绘图的网站因果推断方法真是常看常新之前我们分享过不少因果推断的方法今天又来一个新组合因果森林双重稳健估计。已有大量研究证实牙齿脱落与死亡风险的关联但既往研究大多关注的是平均效应——即假设这种关联的强度在所有人群中是恒定的。但现实中处理效应往往因人而异。今天我们通过一篇2026年发表于《Journal of Dental Research》医学一区topIF5.9的研究来看看研究者如何运用因果森林与双重稳健估计的组合系统评估牙齿脱落对死亡率的因果效应。研究团队使用日本老年学评估研究JAGES2013年基线调查数据经过纳排最终纳入69,265名65岁及以上老年人随访时间中位数为9.2年。暴露变量牙齿状态按WHO功能牙齿标准分为“≥20颗牙”与“20颗牙”两组。其中47.2%的参与者牙齿缺失20颗牙。结局变量全因死亡通过市政死亡登记记录。纳入44个协变量涵盖人口学、社会经济、健康状况、行为、社会关系、社区层面因素。对于缺失数据研究团队使用随机森林插补法进行填补缺失比例从0%到26.1%不等。插补后样本的特征相比完整病例样本更接近于基线样本。ATE估计逆概率加权IPW方法研究者首先通过估计平均治疗效应ATE来探究牙齿缺失与死亡率之间的关联。先通过逆概率加权IPW平衡两组纳入44个协变量构建逻辑回归模型计算牙齿缺失20颗牙概率的稳定权重。在此基础上使用线性概率模型LPM分析用风险差尺度估计平均处理效应ATE。此外使用Cox比例风险模型来验证关联的稳健性。研究结果显示牙齿脱落显著增加了老年人群的死亡风险。具体表现在牙齿脱落与死亡风险增加3.2个百分点相关系数0.03295%Cl 0.023~0.040。使用Cox比例风险模型观察到了类似的关联HR1.1995%Cl 1.14~1.25。CATE估计因果森林双重稳健捕捉异质性接着通过估计条件平均处理效应CATE来检验牙齿脱落与死亡率之间关联的异质性。研究团队应用了广义随机森林GRF算法中的因果森林方法--与传统随机森林不同因果森林的预测目标是暴露对结局的影响而非结局本身。首先使用20折交叉拟合进行预测。接着通过使用增强逆概率加权AIPW估计CATE五等分亚组的组平均处理效应GATE来评估模型性能。研究团队使用的AIPW就是我们所说的双重稳健估计方法之一除此之外还有靶向最大似然估计TMLE。“双重稳健估计”最大的优点在于它的容错率高只要倾向得分模型预测个体接受处理的可能性或结果模型预测个体在不同处理下的潜在结局中有一个被正确设定那么得到的因果效应估计就是渐进无偏的。这相当于为因果估计上了两道“保险”大大降低了对单一模型设定正确性的依赖。更值得一提的是它们允许使用复杂的机器学习算法来拟合这两个模型而不会破坏估计的理论性质如低偏误、可信的置信区间等。同时进行最佳线性预测BLP分析以正式检验效应异质性的存在。结果显示牙齿脱落对死亡率的影响因人而异。CATE分布呈右偏范围0.001~0.070中位数0.028四分位距0.010这些结果表明在大多数人群中牙齿脱落与死亡率增加相关但在某些亚组中影响更强。按CATE五等分分组后效应最大组死亡率高达32.5%而效应最小组仅12.7%相差近2.5倍且按CATE五等分亚组估计的GATE值呈递增趋势。BLP分析显示森林模型校准良好均值森林预测系数0.99P0.001并捕捉到了显著的效应异质性差异森林预测系数1.17P0.003。识别关键特征用XGBoostSHAP打开黑箱在确认存在异质性后研究者进一步希望识别对效应异质性贡献较大的因素。将第二步中估计出的CATE作为预测目标纳入44个协变量作为特征使用XGBoost构建预测模型。数据集按8:2划分为训练集和测试集通过网格搜索进行超参数调优以最小化均方根误差RMSE为优化目标。用SHAP值对特征重要性进行可视化。SHAP值越大说明该特征对CATE的预测贡献越大。研究结果显示心脏病、性别和抑郁症状是影响效应异质性最强的3个贡献因素。联合效应分析热图显示在心脏病、性别和抑郁症状定义的亚组中平均CATE存在差异范围从无心脏病或无抑郁的女性的0.024到有心脏病和重度抑郁的男性的0.054。综上所述本研究采用因果森林与双重稳健估计的组合方法证实了日本老年人牙齿缺失与死亡率存在因果关联且关联强度在男性、心脏病患者、抑郁症患者以及社会经济地位较低的亚组中更为显著。今天分享的这篇文章的核心逻辑非常清晰先用逆概率加权IPW和线性概率模型评估ATE接着用因果森林加双重稳健估计算出CATE最后用SHAP分析可视化各变量影响异质性的程度。本文所涉及的因果森林与双重稳健估计方法之前我们都有介绍过感兴趣的可以看一下最强因果推断方法必须是这个组合超级学习者双重稳健估计方法学革新工具变量因果森林如何破解因果谜题最后在文末给郑老师我们团队打个广告吧大家不要见怪哈欢迎加入“因果推断与机器学习科研训练营”