一、Heckman TwoStep方法所属模块
Heckman TwoStep在SPSSAU中属于计量经济研究模块。
二、方法概述
Heckman TwoStep主要用于处理样本选择偏误问题,尤其适合“并不是所有样本都会进入第二阶段结果分析”的研究场景。它先判断样本是否进入观察范围,再对进入样本后的连续型结果进行回归分析,因此常用于劳动经济、医疗利用、消费行为等研究。
三、变量设置规则
该方法一共需要设置4类变量,分别对应第一阶段和第二阶段。4类变量均为必填项,其中两个因变量都只能放入1个,两个自变量位置都可放入多个。
1.第一阶段变量设置
(1)第一阶段被解释变量Y1:必须放入1个变量,用来表示样本是否被观察到或是否进入第二阶段分析。该变量应为0/1变量,通常用0表示未进入、1表示进入。
(2)第一阶段解释变量X:至少放入1个,最多可放入200个,用来解释样本进入第二阶段的可能性。若研究中怀疑“哪些样本会被选中”受多种因素影响,这些因素就放在这里。
2.第二阶段变量设置
(1)第二阶段被解释变量Y2:必须放入1个变量,且应为定量变量,用来表示真正要研究的结果变量,例如收入、消费额、费用、时长等连续型结果。
(2)第二阶段解释变量X:至少放入1个,最多可放入200个,用来解释第二阶段结果变量的变化。这里放入的是对连续型结果有影响的解释因素。
四、参数设置及解释说明
1.保存残差和预测值
勾选后,系统会额外保存残差和预测值,便于后续继续做诊断、比对或导出整理。如果只是想先看主分析结果,可以不勾选;如果后面还要做模型检验、异常值查看或结果留档,建议勾选。
2.保存IMR值
勾选后,系统会额外保存IMR值。IMR值是Heckman TwoStep中很关键的一项内容,后续如果希望进一步检查样本选择偏误是否明显,或者保留中间结果用于复核,建议一并保存。
五、分析结果表格及其解读
Heckman TwoStep分析后会输出模型汇总、研究数据基本汇总、第一阶段回归结果、第二阶段回归结果、两张简化结果表,以及在存在原始样本量信息时输出样本缺失情况汇总表。
表1:HeckmanTwoStep模型汇总
该表格的作用是先把两阶段模型的结构展示清楚,包含每个阶段对应的被解释变量Y和解释变量X,便于快速核对模型是否设定正确。
● 阶段:用于区分第一阶段和第二阶段。第一阶段是二元Probit回归,重点回答“样本是否进入观察范围”;第二阶段是OLS回归,重点回答“进入样本后的结果变量受什么影响”。判断时先看两个阶段是否与研究设计一致。
● 被解释变量Y:用于确认每个阶段分析的核心结果对象。第一阶段应是0/1变量,第二阶段应是定量变量。如果变量类型放错,后续结果解释就会失真。
● 解释变量X:用于确认各阶段纳入了哪些影响因素。若遗漏关键变量,模型解释力通常会下降;若变量放错阶段,也会影响结果含义。
表2:研究数据基本汇总
该表格的作用是概览样本在第一阶段中的分布情况,并同时展示有效样本与缺失样本情况,包含频数和百分比等信息。
● 频数:表示各类样本的实际数量,用于判断0类与1类样本是否严重失衡。如果某一类样本数量过少,第一阶段结果的稳定性可能会受影响。
● 百分比:表示各类样本所占比重,用于快速识别样本结构。若0和1的比例极不均衡,解读时要更加谨慎。
● 有效样本与缺失样本:用于判断最终进入分析的数据质量。有效样本占比越高,通常说明数据可用性越好;若缺失比例较高,结果代表性可能下降。
表3:第一阶段(二元Probit回归)分析结果汇总
该表格的作用是展示第一阶段选择方程的估计结果,包含回归系数、标准误、z值、p值、区间估计,以及模型层面的检验指标。
● 回归系数:表示解释变量对样本“被选中”概率方向的影响。系数为正,通常说明该变量越高越容易进入第二阶段;系数为负,则说明越不容易进入第二阶段。
● 标准误:用于反映回归系数估计的稳定程度。标准误越小,通常说明估计越稳定。
● z值:用于衡量回归系数偏离零的程度,绝对值越大,通常说明变量作用越明显。
● p值:用于判断变量影响是否显著。一般p值小于0.05,可认为该变量对样本是否被选中有显著影响;大于等于0.05,通常说明证据不足。
● 95% CI:用于展示系数的大致合理区间。若区间没有跨过0,通常与显著结果更一致;若跨过0,则往往说明影响不够稳定。
● 似然比检验:用于判断第一阶段整体模型是否有效。一般p值小于0.05,说明整体模型成立。
● McFadden R方、Cox & Snell R方、Nagelkerke R方:这几项都是第一阶段模型拟合情况的参考指标,数值越大通常说明模型解释样本选择情况的能力越强,但它们更适合横向比较,不宜机械地套用统一高低标准。
表4:第二阶段(OLS回归)分析结果
该表格的作用是展示第二阶段结果方程的估计结果,包含回归系数、标准误、t值、p值、区间估计,以及模型整体拟合指标和IMR项。
● 回归系数Coef:表示解释变量对第二阶段连续型结果变量的影响方向和大小。系数为正,说明变量增加时结果变量通常上升;系数为负,则说明结果变量通常下降。
● 标准误Std.Err:用于反映估计的稳定性,数值越小通常越稳定。
● t值:用于衡量单个变量的影响强弱,绝对值越大,一般说明变量作用越明显。
● p值:用于判断单个变量是否显著。一般p值小于0.05,说明该变量对结果变量有显著影响。
● 95% CI:用于辅助判断系数稳定性。若区间没有跨过0,通常与显著结果一致。
● R²:表示模型对第二阶段结果变量的解释程度,数值越大,说明解释能力通常越强。
● 调整R²:是在考虑自变量数量后得到的解释程度指标,更适合比较不同模型。若调整R²明显偏低,说明模型解释力有限。
● F值:用于检验第二阶段整体模型是否显著。一般对应p值小于0.05,说明整体模型有统计意义。
● IMR:这是Heckman TwoStep非常关键的校正项,用于反映样本选择偏误是否需要修正。若IMR对应的p值小于0.05,通常说明样本选择偏误较明显,使用Heckman TwoStep是有必要的;若不显著,则说明选择偏误影响可能不强。
表5:第一阶段(二元Probit回归)分析结果汇总-简化格式
该表格的作用是用更紧凑的方式呈现第一阶段核心结果,适合做论文整理、报告摘录或快速查看。主要包含各项回归系数,以及似然比检验和几项拟合指标。
● 回归系数:用于快速判断各变量影响方向与显著性标记,适合做简洁呈现。
● 括号中的z值:用于辅助判断变量作用强弱,绝对值越大通常越值得关注。
● 似然比检验与伪R方指标:用于快速判断第一阶段整体模型是否有效、拟合情况是否较好。
表6:第二阶段(OLS回归)分析结果-简化格式
该表格的作用是简洁呈现第二阶段核心估计结果,主要包括各变量回归系数、样本量、R²、调整R²和F值等指标。
● 回归系数:用于快速把握各变量对结果变量的影响方向与显著性。
● 括号中的t值:用于辅助判断变量作用强弱。
● 样本量:表示真正进入第二阶段估计的样本数量,样本量过小会影响结果稳定性。
● R²、调整R²、F值:用于快速判断第二阶段模型的解释力和整体显著性。
表7:样本缺失情况汇总
该表格在有原始样本量信息时输出,用于展示有效样本、排除无效样本及其占比,帮助判断数据筛选对研究结果的影响。
● 有效样本:表示最终进入分析的数据量,占比越高通常越有利于结果稳定。
● 排除无效样本:表示因缺失或无效而被剔除的数据量,若占比过高,需要关注样本代表性是否下降。
● 总计:用于和前两项核对整体样本规模,确保数据筛选过程清楚透明。
以上就是SPSSAU Heckman TwoStep方法的相关内容,更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。