Heckman TwoStep怎么做：SPSSAU操作步骤与结果解读-编程实验室

一、Heckman TwoStep方法所属模块

Heckman TwoStep在SPSSAU中属于计量经济研究模块。

二、方法概述

Heckman TwoStep主要用于处理样本选择偏误问题，尤其适合“并不是所有样本都会进入第二阶段结果分析”的研究场景。它先判断样本是否进入观察范围，再对进入样本后的连续型结果进行回归分析，因此常用于劳动经济、医疗利用、消费行为等研究。

三、变量设置规则

该方法一共需要设置4类变量，分别对应第一阶段和第二阶段。4类变量均为必填项，其中两个因变量都只能放入1个，两个自变量位置都可放入多个。

1.第一阶段变量设置

（1）第一阶段被解释变量Y1：必须放入1个变量，用来表示样本是否被观察到或是否进入第二阶段分析。该变量应为0/1变量，通常用0表示未进入、1表示进入。

（2）第一阶段解释变量X：至少放入1个，最多可放入200个，用来解释样本进入第二阶段的可能性。若研究中怀疑“哪些样本会被选中”受多种因素影响，这些因素就放在这里。

2.第二阶段变量设置

（1）第二阶段被解释变量Y2：必须放入1个变量，且应为定量变量，用来表示真正要研究的结果变量，例如收入、消费额、费用、时长等连续型结果。

（2）第二阶段解释变量X：至少放入1个，最多可放入200个，用来解释第二阶段结果变量的变化。这里放入的是对连续型结果有影响的解释因素。

四、参数设置及解释说明

1.保存残差和预测值

勾选后，系统会额外保存残差和预测值，便于后续继续做诊断、比对或导出整理。如果只是想先看主分析结果，可以不勾选；如果后面还要做模型检验、异常值查看或结果留档，建议勾选。

2.保存IMR值

勾选后，系统会额外保存IMR值。IMR值是Heckman TwoStep中很关键的一项内容，后续如果希望进一步检查样本选择偏误是否明显，或者保留中间结果用于复核，建议一并保存。

五、分析结果表格及其解读

Heckman TwoStep分析后会输出模型汇总、研究数据基本汇总、第一阶段回归结果、第二阶段回归结果、两张简化结果表，以及在存在原始样本量信息时输出样本缺失情况汇总表。

表1：HeckmanTwoStep模型汇总

该表格的作用是先把两阶段模型的结构展示清楚，包含每个阶段对应的被解释变量Y和解释变量X，便于快速核对模型是否设定正确。

● 阶段：用于区分第一阶段和第二阶段。第一阶段是二元Probit回归，重点回答“样本是否进入观察范围”；第二阶段是OLS回归，重点回答“进入样本后的结果变量受什么影响”。判断时先看两个阶段是否与研究设计一致。

● 被解释变量Y：用于确认每个阶段分析的核心结果对象。第一阶段应是0/1变量，第二阶段应是定量变量。如果变量类型放错，后续结果解释就会失真。

● 解释变量X：用于确认各阶段纳入了哪些影响因素。若遗漏关键变量，模型解释力通常会下降；若变量放错阶段，也会影响结果含义。

表2：研究数据基本汇总

该表格的作用是概览样本在第一阶段中的分布情况，并同时展示有效样本与缺失样本情况，包含频数和百分比等信息。

● 频数：表示各类样本的实际数量，用于判断0类与1类样本是否严重失衡。如果某一类样本数量过少，第一阶段结果的稳定性可能会受影响。

● 百分比：表示各类样本所占比重，用于快速识别样本结构。若0和1的比例极不均衡，解读时要更加谨慎。

● 有效样本与缺失样本：用于判断最终进入分析的数据质量。有效样本占比越高，通常说明数据可用性越好；若缺失比例较高，结果代表性可能下降。

表3：第一阶段（二元Probit回归）分析结果汇总

该表格的作用是展示第一阶段选择方程的估计结果，包含回归系数、标准误、z值、p值、区间估计，以及模型层面的检验指标。

● 回归系数：表示解释变量对样本“被选中”概率方向的影响。系数为正，通常说明该变量越高越容易进入第二阶段；系数为负，则说明越不容易进入第二阶段。

● 标准误：用于反映回归系数估计的稳定程度。标准误越小，通常说明估计越稳定。

● z值：用于衡量回归系数偏离零的程度，绝对值越大，通常说明变量作用越明显。

● p值：用于判断变量影响是否显著。一般p值小于0.05，可认为该变量对样本是否被选中有显著影响；大于等于0.05，通常说明证据不足。

● 95% CI：用于展示系数的大致合理区间。若区间没有跨过0，通常与显著结果更一致；若跨过0，则往往说明影响不够稳定。

● 似然比检验：用于判断第一阶段整体模型是否有效。一般p值小于0.05，说明整体模型成立。

● McFadden R方、Cox & Snell R方、Nagelkerke R方：这几项都是第一阶段模型拟合情况的参考指标，数值越大通常说明模型解释样本选择情况的能力越强，但它们更适合横向比较，不宜机械地套用统一高低标准。

表4：第二阶段（OLS回归）分析结果

该表格的作用是展示第二阶段结果方程的估计结果，包含回归系数、标准误、t值、p值、区间估计，以及模型整体拟合指标和IMR项。

● 回归系数Coef：表示解释变量对第二阶段连续型结果变量的影响方向和大小。系数为正，说明变量增加时结果变量通常上升；系数为负，则说明结果变量通常下降。

● 标准误Std.Err：用于反映估计的稳定性，数值越小通常越稳定。

● t值：用于衡量单个变量的影响强弱，绝对值越大，一般说明变量作用越明显。

● p值：用于判断单个变量是否显著。一般p值小于0.05，说明该变量对结果变量有显著影响。

● 95% CI：用于辅助判断系数稳定性。若区间没有跨过0，通常与显著结果一致。

● R²：表示模型对第二阶段结果变量的解释程度，数值越大，说明解释能力通常越强。

● 调整R²：是在考虑自变量数量后得到的解释程度指标，更适合比较不同模型。若调整R²明显偏低，说明模型解释力有限。

● F值：用于检验第二阶段整体模型是否显著。一般对应p值小于0.05，说明整体模型有统计意义。

● IMR：这是Heckman TwoStep非常关键的校正项，用于反映样本选择偏误是否需要修正。若IMR对应的p值小于0.05，通常说明样本选择偏误较明显，使用Heckman TwoStep是有必要的；若不显著，则说明选择偏误影响可能不强。

表5：第一阶段（二元Probit回归）分析结果汇总-简化格式

该表格的作用是用更紧凑的方式呈现第一阶段核心结果，适合做论文整理、报告摘录或快速查看。主要包含各项回归系数，以及似然比检验和几项拟合指标。

● 回归系数：用于快速判断各变量影响方向与显著性标记，适合做简洁呈现。

● 括号中的z值：用于辅助判断变量作用强弱，绝对值越大通常越值得关注。

● 似然比检验与伪R方指标：用于快速判断第一阶段整体模型是否有效、拟合情况是否较好。

表6：第二阶段（OLS回归）分析结果-简化格式

该表格的作用是简洁呈现第二阶段核心估计结果，主要包括各变量回归系数、样本量、R²、调整R²和F值等指标。

● 回归系数：用于快速把握各变量对结果变量的影响方向与显著性。

● 括号中的t值：用于辅助判断变量作用强弱。

● 样本量：表示真正进入第二阶段估计的样本数量，样本量过小会影响结果稳定性。

● R²、调整R²、F值：用于快速判断第二阶段模型的解释力和整体显著性。

表7：样本缺失情况汇总

该表格在有原始样本量信息时输出，用于展示有效样本、排除无效样本及其占比，帮助判断数据筛选对研究结果的影响。

● 有效样本：表示最终进入分析的数据量，占比越高通常越有利于结果稳定。

● 排除无效样本：表示因缺失或无效而被剔除的数据量，若占比过高，需要关注样本代表性是否下降。

● 总计：用于和前两项核对整体样本规模，确保数据筛选过程清楚透明。

以上就是SPSSAU Heckman TwoStep方法的相关内容，更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。

Heckman TwoStep怎么做：SPSSAU操作步骤与结果解读

【面试】面试中第七容易被忽略的能力，是读人

线性dp-计数类题目6

基于AMS1117的多电压面包板电源模块设计与制作全攻略

Gemini API调用失败？5类隐蔽性调试错误解析：从403 Unauthorized到stream中断的完整排障链路

暗黑破坏神3终极自动化助手：D3KeyHelper完整使用指南

债券投资分析——你还在凭感觉买债券？一文告诉你如何用excel免费科学选债券