手把手教你用NumPy实现线性回归：从MSE、R²到正规方程（附头歌平台第三关代码解析）-编程实验室

用NumPy从零构建线性回归模型：原理推导与代码实现全解析

线性回归作为机器学习领域的"Hello World"，是每个数据科学学习者必须掌握的基础算法。但很多初学者在理论学习阶段能够理解最小二乘法原理，一旦需要动手实现代码，面对矩阵运算和公式转换就手足无措。本文将带你从数学公式出发，逐步推导出可运行的NumPy实现，特别针对在线编程平台常见的填空式代码进行深度解析。

1. 线性回归核心原理拆解

线性回归的核心目标是通过最小化预测值与真实值之间的差距，找到最佳拟合直线。这个"差距"的量化标准就是均方误差(MSE)，而衡量模型好坏的指标则是R²分数。

1.1 均方误差(MSE)的数学本质

MSE的计算公式看似简单：

$$ MSE = \frac{1}{n}\sum_{i=1}^n(y_i - \hat{y_i})^2 $$

但在NumPy实现时，有几个关键点需要注意：

向量化运算：避免使用Python循环，直接对整个数组操作
广播机制：理解NumPy如何自动处理不同形状数组的运算
数值稳定性：处理极大或极小值时可能出现的溢出问题

def mse_score(y_predict, y_test): """计算均方误差""" mse = np.mean((y_predict - y_test)**2) return mse

注意：在实际项目中，当数据量极大时，直接计算平方和可能导致数值溢出。这时可以考虑使用对数空间计算或分批次处理。

1.2 R²分数的深入理解

R²分数衡量的是模型相比简单均值预测的改进程度：

def r2_score(y_predict, y_test): """计算R²分数""" y_mean = np.mean(y_test) ss_res = np.sum((y_predict - y_test)**2) # 残差平方和 ss_tot = np.sum((y_mean - y_test)**2) # 总平方和 r2 = 1 - ss_res / ss_tot return r2

R²的取值范围和解释：

1：完美拟合
0：等同于均值预测
负值：模型表现比简单均值还差

2. 正规方程(Normal Equation)的实现技巧

正规方程提供了一种解析解法，可以直接计算出最优参数θ：

$$ \theta = (X^TX)^{-1}X^Ty $$

2.1 添加偏置项的关键步骤

在线性回归中，我们通常需要添加一个全为1的列来代表截距项：

# 原始数据形状：(n_samples, n_features) X = np.array([[1], [2], [3]]) # 添加偏置项后的形状：(n_samples, n_features+1) X_with_bias = np.hstack([X, np.ones((len(X), 1))])

2.2 正规方程的NumPy实现

def fit_normal(self, train_data, train_label): """使用正规方程拟合模型""" # 添加偏置项 X = np.hstack([train_data, np.ones((len(train_data), 1))]) # 计算参数θ self.theta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(train_label) return self.theta

常见错误及解决方法：

矩阵不可逆：当特征之间存在线性相关性时，$X^TX$可能不可逆
- 解决方案：使用伪逆np.linalg.pinv代替np.linalg.inv
形状不匹配：确保矩阵乘法维度对齐
- 检查点：X.T.dot(X)的形状应为(n_features+1, n_features+1)

3. 预测函数的实现细节

预测阶段同样需要注意偏置项的处理：

def predict(self, test_data): """使用训练好的模型进行预测""" # 测试数据也需要添加偏置项 X = np.hstack([test_data, np.ones((len(test_data), 1))]) return X.dot(self.theta)

4. 完整类实现与使用示例

将上述各部分组合成完整的线性回归类：

import numpy as np class LinearRegression: def __init__(self): self.theta = None def fit_normal(self, train_data, train_label): X = np.hstack([train_data, np.ones((len(train_data), 1))]) self.theta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(train_label) return self.theta def predict(self, test_data): X = np.hstack([test_data, np.ones((len(test_data), 1))]) return X.dot(self.theta) def score(self, X, y): y_pred = self.predict(X) return r2_score(y_pred, y)

使用示例：

# 准备数据 X_train = np.array([[1], [2], [3]]) y_train = np.array([2, 4, 6]) # 训练模型 model = LinearRegression() model.fit_normal(X_train, y_train) # 预测新数据 X_test = np.array([[4], [5]]) predictions = model.predict(X_test)

5. 性能优化与实用技巧

5.1 避免直接求逆的数值优化

计算矩阵逆在数值计算上代价较高且可能不稳定，可以使用线性方程组求解代替：

# 替代方案 self.theta = np.linalg.solve(X.T.dot(X), X.T.dot(train_label))

5.2 批量处理与在线学习

对于大规模数据，可以考虑分批处理或使用随机梯度下降：

def fit_sgd(self, X, y, learning_rate=0.01, epochs=100): """随机梯度下降实现""" X = np.hstack([X, np.ones((len(X), 1))]) self.theta = np.zeros(X.shape[1]) for _ in range(epochs): for i in range(len(X)): prediction = X[i].dot(self.theta) error = prediction - y[i] self.theta -= learning_rate * error * X[i] return self.theta

5.3 特征缩放的重要性

在使用正规方程前对特征进行标准化可以改善数值稳定性：

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_scaled = scaler.fit_transform(X) model.fit_normal(X_scaled, y)

6. 调试与错误排查指南

当实现出现问题时，可以按照以下步骤排查：

检查矩阵形状：使用X.shape确认所有矩阵维度匹配
验证中间结果：逐步计算并打印关键步骤的结果
小数据测试：先用人工计算可验证的小数据集测试
比较参考实现：与scikit-learn的LinearRegression对比结果

from sklearn.linear_model import LinearRegression as SKLinearRegression # 创建对比模型 sk_model = SKLinearRegression(fit_intercept=True) sk_model.fit(X_train, y_train) # 比较参数 print("我们的实现:", model.theta) print("Scikit-learn:", np.hstack([sk_model.coef_, sk_model.intercept_]))