三大检验实战指南：如何用Python实现LR、Wald与LM检验-编程实验室

1. 计量经济学三大检验入门指南

第一次接触LR、Wald和LM检验时，我也被那些数学公式绕得头晕。直到用Python实际跑了几组数据后，才发现它们就像三个性格不同的侦探——虽然破案方式不同，但最终都能帮我们验证模型假设。这三大检验在计量经济学中的地位，堪比机器学习中的交叉验证，是判断模型约束条件是否成立的利器。

举个实际例子：假设我们建立了一个预测房价的多元线性回归模型，包含面积、地段、房龄等特征。突然有个假设——"房龄对房价的影响是面积影响的一半"。这个假设是否成立？三大检验就能派上用场。我在处理电商用户行为数据时，就经常用它们验证"促销活动对不同用户群体的影响是否一致"这类业务假设。

Python生态为我们提供了强大工具链。statsmodels库就像瑞士军刀，而scipy则是数学后盾。不过要注意，这些检验对数据有些基本要求：

样本量建议不少于30个观测值
变量需要满足一定的分布假设
模型设定需要正确反映数据结构

新手常见误区是把三大检验当作互相排斥的选择。实际上它们殊途同归，只是计算路径不同，就像用不同路线攀登同一座山峰。

2. 似然比检验(LR)的Python实战

2.1 LR检验原理大白话

LR检验的核心思想很像我们日常做AB测试。想象你有两个版本的APP（无约束模型和带约束模型），通过比较它们的"用户留存率"（似然函数值）来判断哪个更好。具体步骤是：

分别计算约束模型和非约束模型的最大似然值
计算两倍对数似然比：LR = -2*(约束模型似然 - 无约束模型似然)
这个统计量服从卡方分布，自由度等于约束条件个数

import numpy as np from scipy.stats import chi2 def lr_test(ll_unconstrained, ll_constrained, df): """ ll_unconstrained: 无约束模型对数似然值 ll_constrained: 约束模型对数似然值 df: 约束条件个数 """ lr_stat = -2 * (ll_constrained - ll_unconstrained) p_value = chi2.sf(lr_stat, df) return lr_stat, p_value

2.2 完整案例演示

我们用statsmodels构建一个工资预测模型，检验"教育年限和工作经验对工资的影响相同"这一假设：

import statsmodels.api as sm from statsmodels.formula.api import ols # 生成模拟数据 np.random.seed(123) n = 500 edu = np.random.normal(12, 3, n) exp = np.random.normal(10, 2, n) salary = 2000 + 500*edu + 300*exp + np.random.normal(0, 200, n) # 无约束模型 model_uncon = ols('salary ~ edu + exp', data={'salary':salary, 'edu':edu, 'exp':exp}).fit() print(model_uncon.summary()) # 带约束模型(edu系数=exp系数) model_con = ols('salary ~ I(edu + exp)', data={'salary':salary, 'edu':edu, 'exp':exp}).fit() # 执行LR检验 lr_stat, p_val = lr_test(model_uncon.llf, model_con.llf, df=1) print(f'LR统计量: {lr_stat:.4f}, p值: {p_val:.4f}')

实测发现，当样本量较小时(如n<100)，LR检验容易过度拒绝原假设。这时可以结合Bootstrap方法提高准确性：

from sklearn.utils import resample def bootstrap_lr(data, n_iter=1000): stats = [] for _ in range(n_iter): sample = resample(data) # 重新拟合模型并计算LR统计量 ... return np.percentile(stats, [2.5, 97.5])

3. Wald检验的灵活应用

3.1 Wald检验的独特优势

Wald检验就像个精明的会计——它不需要重新做两套账(拟合两个模型)，只需在原有账本(无约束模型)上做审计。其核心公式是：

W = (Rθ - q)ᵀ [R Var(θ) Rᵀ]⁻¹ (Rθ - q)

其中R是约束条件矩阵，θ是参数估计，q是约束值。Python实现时最常踩的坑是方差-协方差矩阵的计算。我推荐使用statsmodels的cov_type='HC0'选项获得更稳健的标准误：

# 延续前面的工资模型 r_matrix = np.array([[0, 1, -1]]) # 检验edu系数=exp系数 wald_stat = model_uncon.wald_test(r_matrix, scalar=True) print(wald_stat)

3.2 非线性约束检验

Wald检验的强大之处在于能处理非线性约束。比如想检验"教育年限的边际效应是经验的平方"：

from statsmodels.stats.api import wald_test_noncent def nonlinear_constraint(params): return params[1] - params[2]**2 wald_result = wald_test_noncent(model_uncon.params, model_uncon.cov_params(), nonlinear_constraint)

在金融风险管理模型中，我常用这种方法检验VaR(风险价值)模型的参数约束。不过要注意，当约束条件涉及多个非线性关系时，可能需要使用Delta方法计算标准误。

4. LM检验的实现技巧

4.1 LM检验的逆向思维

LM检验(又称Score检验)采取了与众不同的思路——先接受约束条件，再检查如果放松约束能否显著改进模型。这就像先按预算购物，再看如果超支能带来多少额外收益。

其实现步骤分为：

估计约束模型，得到残差ε̃
用ε̃对所有解释变量做回归，得到R²
计算LM = n*R² ~ χ²(k)

def lm_test(model_con, exog_uncon): """ model_con: 约束模型 exog_uncon: 无约束模型的设计矩阵 """ score = model_con.score_obs(exog_uncon) lm_stat = score.sum(0).dot(np.linalg.solve(model_con.cov_params(), score.sum(0))) p_value = chi2.sf(lm_stat, df=1) return lm_stat, p_value

4.2 处理异方差问题

当数据存在异方差时，传统LM检验可能失效。这时可以使用稳健LM检验：

# 使用稳健协方差矩阵 robust_lm = model_con.score_test(exog_uncon, cov_type='HC0')

在分析市场营销数据时，我发现当处理分类变量较多的模型时，LM检验的计算效率明显高于LR检验。特别是在约束条件较多时，优势更加明显。

5. 三大检验的选型指南

5.1 性能对比实验

我用模拟数据对比了三种检验在不同场景下的表现：

场景	LR检验	Wald检验	LM检验
小样本(n=30)	保守	适中	激进
存在异方差	稳健	需调整	需调整
非线性约束	困难	容易	中等
计算效率	低	高	中

5.2 实际选择建议

根据我的项目经验，给出以下实用建议：

优先考虑LR检验：当模型拟合速度较快时，LR检验结果最可靠
大数据集选Wald：当样本量超过10万时，Wald检验的计算优势明显
模型复杂用LM：对于多层混合模型等复杂结构，LM检验更容易实现

一个典型的电商应用场景：验证"促销活动在PC端和移动端的效果差异是否显著"。我们可以先用LR检验建立基准，再用Wald检验做实时监控：

# A/B测试场景示例 def ab_test_lr(control_data, treatment_data): # 合并数据拟合全局模型 combined_model = fit_model(control_data + treatment_data) # 分别拟合分组模型 control_model = fit_model(control_data) treatment_model = fit_model(treatment_data) # 计算联合似然值 ll_combined = combined_model.llf ll_separate = control_model.llf + treatment_model.llf return lr_test(ll_combined, ll_separate, df=参数个数)

最后提醒，当检验结果出现矛盾时，应该检查模型设定是否正确。有次我分析用户留存数据时，三个检验给出不同结论，后来发现是遗漏了重要交互项。