016、机器学习基础：模型、训练与评估方法论-编程实验室

从一次调试说起

帮同事看一个图像分类项目，测试集准确率卡在 92% 死活上不去。他反复调整网络层数、换优化器、甚至试了数据增强，效果都不明显。最后我让他把训练集和验证集的 loss 曲线打出来——两条线早早就分道扬镳，验证集 loss 从第 5 个 epoch 就开始往上飘。他盯着屏幕愣了半天：“我早看到过这图，以为只是随机波动。”

这个场景太典型了。很多工程师把机器学习当成“调参炼金术”，却忽略了背后那套基础的方法论。今天我们就拆开看看，模型、训练、评估这三个环节到底该怎么系统化地思考。

模型：不只是选个算法那么简单

选模型的时候，新手常犯两个错误：要么盲目追新，非 Transformer 不用；要么死守老方法，觉得“线性回归足够简单稳定”。其实模型选择是道平衡题：复杂度、可解释性、计算开销、数据规模，这几个因素得一起掂量。

# 举个简单的例子：选分类模型fromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifier# 小数据集（几千条）且特征不多时，逻辑回归其实很能打# 别一上来就搞深度学习，训练慢还容易过拟合model_lr=LogisticRegression(max_iter=1000)# 记得调大迭代次数，默认值经常不够用# 数据量上去后（几万条），随机森林往往更稳# 但特征维度太高时（比如几万维），内存可能扛不住model_rf=RandomForestClassifier(n_estimators=100,n_jobs=-1)# n_jobs=-1 用上所有CPU核心

模型本身的结构参数也值得琢磨。比如全连接层的神经元数量，我习惯从特征数量的 1/2 到 2 倍之间开始试。别拍脑袋设个 1024，参数量爆炸不说，梯度回传还容易出问题。

训练：loss 下降不等于模型在学好

训练过程中最骗人的就是 loss 曲线平稳下降。有一次我做时序预测，训练 loss 一路降到接近 0，高兴了不到三分钟，发现模型把所有值都预测成了常数——它只是学会了忽略输入特征。

# 监控训练时的关键指标history=model.fit(X_train,y_train,validation_split=0.2,# 一定留出验证集，否则你不知道模型泛化能力batch_size=32,# batch 大小别瞎设，一般从 32 开始试epochs=50,verbose=1,callbacks=[EarlyStopping(patience=10),# 早停必备，防过拟合的利器ReduceLROnPlateau(factor=0.5,patience=5)# 学习率自适应调整])# 画图看趋势，别只看最后数字plt.plot(history.history['loss'],label='train')plt.plot(history.history['val_loss'],label='val')# 关键在这条线！plt.legend()# 如果两条线差距越来越大，赶紧停，别硬训

学习率设置是门玄学。我的经验是：先用一个 epoch 做学习率扫描（learning rate range test），找到 loss 开始下降的那个拐点，再取略小于它的值作为初始学习率。Adam 优化器的默认学习率 1e-3 对很多任务来说其实偏大，试试 3e-4 或 1e-4 可能更稳。

评估：准确率 99% 的模型可能毫无用处

评估环节的坑最多。分类任务只看准确率，结果发现数据集 90% 都是负样本；回归任务盯着 MSE，实际业务更关心极端值的预测能力。评估必须和业务目标对齐。

fromsklearn.metricsimportclassification_report,confusion_matrix# 分类任务：别只看 accuracyy_pred=model.predict(X_test)print(classification_report(y_test,y_pred))# 看 precision/recall/f1print(confusion_matrix(y_test,y_pred))# 看错在哪了# 特别警惕类别不平衡的情况# 如果正样本只有 1%，模型全预测负也能有 99% 准确率# 这时候得看 AUC-ROC 或者 PR 曲线