一、朴素贝叶斯所属模块
朴素贝叶斯在SPSSAU中属于【机器学习】模块。
二、方法概述
朴素贝叶斯是一种常见的分类方法,适合根据已有样本特征来判断目标样本属于哪一类。它适用于分类预测、标签识别和特征影响判断等场景,尤其适合想快速完成分类建模与结果解读的实操需求。
三、变量设置规则
1.总体要求
朴素贝叶斯共需要设置2类变量,分别是分析项(X定量)和Y(定类)。两类变量都为必填。
2.具体设置
(1)分析项(X定量)
● 最少放入1个,最多可放入400个变量,且为必填。
● 用于放入参与分类判断的输入特征,也就是模型用来识别类别的定量变量。
(2)Y(定类)
● 只能放入1个变量,且为必填。
● 用于放入模型要预测的类别标签。
四、参数设置及解释说明
1.训练集比例
● 用于设置总样本中有多少比例参与模型训练,默认值为0.8。
● 训练样本越多,模型学习通常越充分;但测试样本会相应减少。一般情况下可优先使用默认设置。
2.数据归一化
● 可选None、norm、mas、mms。
● None表示不处理;norm表示正态标准化;mas表示区间化;mms表示归一化。
● 如果特征变量尺度差异较大,可考虑进行处理,以减少不同量纲对分类判断的影响。
3.保存预测值
● 勾选后会额外保存预测信息。
● 分类任务下通常会保存预测类别和各类别预测概率,便于后续查看具体预测结果。
4.保存训练测试标识
● 勾选后会生成训练集和测试集标识,其中训练集记为1,测试集记为2。
● 适合后续检查样本如何被划分,也便于把结果写回原数据继续使用。
5.交叉验证
● 默认不进行,也可以选择2折、3折、5折或10折。
● 交叉验证用于反复检验模型稳定性,折数越高,评估通常更稳,但计算时间也会更长。
6.特征分布类型
● 可选高斯分布、伯努利分布和多项式分布,默认是高斯分布。
● 高斯分布适合特征为连续值的情况;伯努利分布适合特征只有0和1两种取值的情况;多项式分布适合特征为多个离散值的情况。
● 实际选择时,应优先看特征数据本身是什么类型,而不是只看模型效果高低。
7.平滑处理(alpha值)
● 该参数主要在伯努利分布或多项式分布下使用,用于减少某些特征缺失或取值过少带来的零值问题。
● 通常保持默认值即可;如果数据较稀疏,也可以结合实际情况适当调整。
五、分析结果表格及其解读
SPSSAU完成朴素贝叶斯分析后,通常会输出贝叶斯分类基本信息汇总、训练集模型评估结果、交叉验证模型评估结果、测试集模型评估结果、模型汇总表、AUC指标值、数据集情况;在满足条件时还会输出特征权重值。
1.表1:贝叶斯分类基本信息汇总
该表格用于展示因变量各类别的样本分布情况,以及有效样本、缺失样本和总样本情况。
● 频数:表示每个类别对应的样本数量。若某一类样本太少,模型对该类的识别通常会更不稳定。
● 百分比:表示各类别在总体中的占比。若类别分布差异过大,模型可能更偏向样本量较大的类别。
● 有效样本:表示真正参与建模的数据量。有效样本越充分,分类结果通常越可靠。
● 缺失样本:表示未能进入建模的数据量。若缺失占比偏高,需要更谨慎看待结果代表性。
2.表2:特征权重值
该表格在输出相关结果时出现,用于展示各分析项在模型中的相对重要程度,包含项和权重值两个核心指标。
● 项:表示进入模型的特征名称。
● 权重值:表示该变量对分类结果的相对贡献。通常数值越大,说明该变量越重要;数值越小,说明影响相对有限。它更适合做变量之间的相对比较。
3.表3:训练集模型评估结果
该表格用于查看模型在训练集上的分类表现,通常包含精确率、召回率、f1-score、样本数、准确率和平均指标。
● 精确率:表示模型判定为某类时有多大概率判对,越高越好。
● 召回率:表示某类别真实样本被识别出来的比例,越高越好。
● f1-score:综合反映精确率与召回率的平衡情况,越高越好。
● 样本数:表示对应类别参与评估的数据量,样本数过少时,该类指标波动可能更大。
● 准确率:表示整体分类正确的比例,通常越高越好。
● 平均值与平均值(综合):用于概括整体分类效果,通常数值越高,说明模型整体表现越理想。
4.表4:交叉验证模型评估结果
该表格仅在开启交叉验证时输出,用于观察模型在重复划分训练数据后的稳定表现。
● 如果交叉验证结果与训练集结果接近,通常说明模型稳定性较好。
● 如果交叉验证结果明显弱于训练集结果,通常说明模型可能存在过度贴合训练数据的情况。
5.表5:测试集模型评估结果
该表格用于判断模型在未参与训练的数据上的分类效果,是检验模型泛化能力的重要依据。
● 精确率、召回率和f1-score越高,通常说明模型在新样本上的分类能力越好。
● 如果测试集结果明显弱于训练集,通常说明模型稳定性一般,后续可考虑调整参数或优化数据。
6.表6:模型汇总表
该表格用于集中展示模型参数设置及模型评估效果,便于快速回顾本次分析方案。
● 参数名:表示本次分析采用的参数项目。
● 参数值:表示对应参数的实际设定,作用是帮助复现分析过程。
● 模型评估效果:用于汇总关键效果指标。若准确率及综合平均指标较高,通常说明模型整体表现较好。
7.表7:AUC指标值
该表格在输出ROC相关结果时出现,用于展示训练集和测试集的AUC表现。
● AUC:用于衡量模型区分类别的能力,通常越接近1越好;若接近0.5,通常说明区分能力较弱。
● 训练集AUC:用于观察模型在训练样本上的区分效果。
● 测试集AUC:更适合判断模型在新数据上的实际区分能力,通常更值得重点关注。
8.表8:数据集情况
该表格用于展示训练集、测试集、预测集和缺失数据的数量与占比。
● 训练集:用于模型学习,比例过低时模型可能学得不充分。
● 测试集:用于检验模型实际效果,过少时评估稳定性可能不足。
● 预测集:表示仅用于生成预测结果的数据。
● 缺失数据:表示未能进入分析的数据量,若占比偏高,需要关注数据完整性问题。
六、分析结果图表及其解读
SPSSAU完成朴素贝叶斯分析后,常见会输出测试集结果混淆矩阵;在满足条件时,还会输出特征权重图和ROC曲线。
1.图1:特征权重图
该图表本质上是条形图,用于直观展示各特征在模型中的相对重要性。
● 条形越长,通常说明该特征对分类结果影响越大。
● 如果少数变量明显高于其他变量,说明模型更依赖这些关键特征。
2.图2:测试集结果混淆矩阵
该图表用于查看真实类别与预测类别之间的对应关系,是判断分类效果的直观图形。
● 如果对角线位置的数值更集中、更高,通常说明模型分类更准确。
● 如果非对角线位置数值较多,说明某些类别更容易被混淆。
3.图3:ROC曲线
该图表用于展示模型在不同判定阈值下的区分能力,通常可同时查看训练集和测试集表现。
● 曲线越靠近左上方,通常说明模型区分能力越强。
● 若测试集曲线明显弱于训练集,通常说明模型在新样本上的稳定性一般。
● 实际解读时,建议结合AUC指标值一起看,这样更容易判断模型是否具有较好的分类能力。
以上就是SPSSAU朴素贝叶斯的相关内容,更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。