一、支持向量机所属模块
支持向量机在SPSSAU中属于【机器学习】模块。
二、方法概述
支持向量机是一类常用的机器学习方法,既可用于分类,也可用于回归。它适合处理特征较多、边界关系较复杂的数据场景,常用于预测、识别类别以及评估变量对结果的区分能力。
三、变量设置规则
1.总体要求
支持向量机共需要设置2类变量,分别是分析项(X定量)和因变量Y。两类变量都为必填。
2.具体设置
(1)分析项(X定量)
● 最少放入1个,最多可放入400个变量,且为必填。
● 用于放入模型的输入特征,也就是参与分类或预测判断的定量变量。
(2)因变量Y
● 只能放入1个变量,且为必填。
● 用于放入模型要预测的目标变量。若Y为类别数据,通常对应分类任务;若Y为定量数据,通常对应回归任务。
四、参数设置及解释说明
1.训练集比例
● 用于设置总样本中有多少比例参与模型训练,默认值为0.8。
● 训练样本越多,模型学习通常越充分;但测试样本会相应减少。一般可先使用默认设置。
2.数据归一化
● 可选None、norm、mas、mms。
● None表示不处理;norm表示正态标准化;mas表示区间化;mms表示归一化。
● 支持向量机对变量尺度较敏感,如果不同变量量纲差异较大,通常建议先做数据处理。
3.保存预测值
● 勾选后会额外保存预测信息。
● 分类任务下通常会保存预测类别和各类别预测概率;回归任务下会保存预测值。
4.保存训练测试标识
● 勾选后会生成训练集和测试集标识,其中训练集记为1,测试集记为2。
● 适合后续检查样本划分情况,也便于将结果回写到原始数据中继续使用。
5.交叉验证
● 默认不进行,也可以选择2折、3折、5折或10折。
● 交叉验证用于反复检验模型稳定性,折数越高,结果通常更稳,但计算时间也会更长。
6.误差项惩罚系数
● 该参数用于控制模型对误差的容忍程度。
● 取值越高,模型越不愿接受误差,但也更容易过度贴合训练数据;取值较低时,模型通常更宽松。
7.核函数
● 可选高斯核函数、多项式核函数、线性核函数和sigmoid核函数,默认是高斯核函数。
● 它用于帮助模型处理更复杂的边界关系。若数据关系较复杂,通常会优先考虑高斯核函数;若关系较简单,也可考虑线性核函数。
8.核函数系数值
● 可选scale、auto或自定义。
● 该参数会影响核函数对样本距离变化的敏感程度。一般情况下可先使用默认的scale;若有明确需要,也可以改用auto或手动指定。
9.用户自定义核函数系数
● 当核函数系数选择自定义时使用。
● 数值越大,模型对局部变化通常越敏感;数值越小,模型表现通常更平滑。实际使用时需要结合模型稳定性一起看。
10.核函数最高次幂
● 该参数仅在多项式核函数下使用,表示多项式核的最高次幂。
● 次数越高,模型越容易拟合复杂关系,但也更容易出现过度拟合。
11.多分类决策函数
● 可选ovr和ovo,默认是ovr。
● ovr表示每个类别分别和其余类别进行比较;ovo表示类别之间两两比较。
● 若类别较多,通常可先使用默认设置。
12.模型收敛参数
● 用于控制模型在什么条件下停止继续优化。
● 当误差变化率小于该值时,模型会结束构建。该值越小,通常意味着模型要求更严格。
13.最大迭代次数
● 表示模型最多可迭代多少次,默认值为2000。
● 如果达到该次数仍未收敛,模型会停止。数据较复杂时,可关注该参数是否影响结果稳定性。
14.任务类型
● 可选自动判断、分类任务和回归任务,默认是自动判断。
● 如果因变量类型非常明确,系统通常可以自动识别;若希望强制按分类或回归方式运行,也可手动指定。
五、分析结果表格及其解读
SPSSAU完成支持向量机分析后,会根据任务类型输出不同结果表,常见包括基本信息汇总、特征权重值、模型评估结果、训练集模型评估结果、交叉验证模型评估结果、测试集模型评估结果、模型汇总表、AUC指标值和数据集情况。
1.表1:支持向量机基本信息汇总或支持向量机分类基本信息汇总
这张表用于展示样本总体情况。分类任务下会呈现各类别频数与占比;回归任务下会呈现有效、缺失和总计情况。
● 频数:表示每个类别或状态对应的样本数量。样本过少的类别,后续识别结果通常更不稳定。
● 百分比:表示对应样本在总体中的占比。若类别分布不均衡,模型可能更偏向样本量较大的类别。
● 有效样本:表示真正参与建模的数据量。有效样本越充分,结果通常越可靠。
● 缺失样本:表示未进入建模的数据量。若缺失占比较高,需要更谨慎看待结果代表性。
2.表2:特征权重值
该表格在输出相关结果时出现,用于展示各分析项在模型中的相对重要性,包含项和权重值两个核心指标。
● 项:表示进入模型的特征名称。
● 权重值:表示该变量对模型结果的相对贡献。通常数值越大,说明该变量越重要;数值越小,说明影响相对有限。它更适合做变量之间的相对比较。
3.表3:模型评估结果或训练集模型评估结果
这部分表格用于判断模型在训练阶段的表现。回归任务下通常包含R方值、MAE、MSE、RMSE、MAD、MAPE、EVS、MSLE等指标;分类任务下通常包含精确率、召回率、f1-score和样本数。
● R方值:用于衡量模型解释结果变化的能力,通常越接近1越好;若数值较低,说明模型拟合能力有限。
● MAE:表示平均误差水平,越接近0越好,越小说明预测偏差越小。
● MSE:表示误差平方后的平均水平,越接近0越好,对较大的预测偏差更敏感。
● RMSE:表示整体误差水平,越小越好,便于直观理解预测偏差大小。
● MAD:表示中位数绝对误差,对异常值不那么敏感,越小越好。
● MAPE:表示平均百分误差,越小越好,适合观察相对误差水平。
● EVS:表示模型对数据波动的解释力度,通常越接近1越好。
● MSLE:表示对数误差水平,越小越好,可作为辅助参考。
● 精确率:表示模型判定为某类时有多大概率判对,越高越好。
● 召回率:表示某类别真实样本被识别出来的比例,越高越好。
● f1-score:综合反映精确率与召回率的平衡情况,越高越好。
● 样本数:表示对应类别参与评估的样本量,样本量过少时,该类指标波动可能更大。
4.表4:交叉验证模型评估结果或测试集模型评估结果
交叉验证模型评估结果仅在开启交叉验证时输出,用于观察模型在重复划分训练数据后的稳定表现;测试集模型评估结果用于判断模型在未参与训练的数据上的实际表现。
● 如果交叉验证结果与训练集结果接近,通常说明模型稳定性较好。
● 如果测试集表现明显弱于训练集,通常说明模型在新样本上的泛化能力一般,后续可考虑调整参数或优化数据。
5.表5:模型汇总表或AUC指标值
模型汇总表用于集中展示模型参数设置及模型评估效果,便于快速回顾本次分析方案;AUC指标值在输出ROC相关结果时出现,用于展示训练集和测试集的区分能力。
● 参数名:表示本次分析采用的参数项目。
● 参数值:表示对应参数的实际设定,作用是帮助复现实验过程。
● AUC:用于衡量模型区分类别的能力,通常越接近1越好;若接近0.5,通常说明区分能力较弱。
6.表6:数据集情况
该表格用于展示训练集、测试集、预测集和缺失数据的数量与占比。
● 训练集:用于模型学习,比例过低时模型可能学得不充分。
● 测试集:用于检验模型实际效果,过少时评估稳定性可能不足。
● 预测集:表示仅用于生成预测结果的数据。
● 缺失数据:表示未能进入分析的数据量,若占比偏高,需要关注数据完整性问题。
六、分析结果图表及其解读
SPSSAU完成支持向量机分析后,常见会输出特征权重图;在分类任务下,还会输出测试集结果混淆矩阵和ROC曲线。
1.图1:特征权重图
该图表本质上是条形图,用于直观展示各特征在模型中的相对重要性。
● 条形越长,通常说明该特征对模型结果影响越大。
● 如果少数变量明显高于其他变量,说明模型更依赖这些关键特征。
2.图2:测试集结果混淆矩阵
该图表在分类任务下输出,用于查看真实类别与预测类别之间的对应关系,是判断分类效果的直观图形。
● 如果对角线位置数值更集中、更高,通常说明模型分类更准确。
● 如果非对角线位置数值较多,说明某些类别更容易被混淆。
3.图3:ROC曲线
该图表在分类任务下输出,用于展示模型在不同判定阈值下的区分能力,通常可同时查看训练集和测试集表现。
● 曲线越靠近左上方,通常说明模型区分能力越强。
● 若测试集曲线明显弱于训练集,通常说明模型在新样本上的稳定性一般。
● 实际解读时,建议结合AUC指标值一起看,这样更容易判断模型是否具有较好的分类能力。
以上就是SPSSAU支持向量机的相关内容,更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。