学生用户画像:考勤主题扩展标签构建与可视化
一、实验名称
实验课3:学生用户画像-考勤主题扩展标签构建、可视化。
二、实验目的
- 基于 student_attendance_stats 学生考勤主题标签表,使用 K-Means 对迟到、早退、请假、没穿校服等行为指标进行自动分群。
- 将聚类簇编号解释为可理解的考勤群体标签,并回写 cluster、attendance_group 扩展字段。
- 在助睿 BI 中基于 se_group_20 私有库构建数据集、工作表和仪表盘,完成纪律高危型学生画像分析。
- 通过性别、年级、校区、班级等维度识别纪律高危型学生分布特征,为精细化管理提供数据依据。
三、实验环境
项目 | 说明 |
平台 | 贵兰 X 助睿实践教学平台:https://lab.guilan.cn/ |
教程 | https://community.uniplore.com/t/topic/76;https://community.uniplore.com/t/topic/77 |
项目使用 | 继续使用已有“学生用户画像标签构建”项目,未新建无关项目。 |
数据库 | 团队私有库 se_group_20,不使用公共示例库作为最终数据源。 |
核心表 | student_cluster、student_attendance_stats |
四、实验数据说明
实验数据来自 se_group_20 中的学生考勤主题表。student_attendance_stats 汇总学生信息、班级、年级、校区类型、迟到次数、早退次数、请假次数、没穿校服次数等字段;K-Means 输出写入 student_cluster 后,再通过扩展标签转换流回写到 student_attendance_stats。
表名 | 用途 |
raw_student_info | 学生基础信息来源表。 |
raw_attendance | 学生考勤记录来源表。 |
raw_attendance_type | 考勤类型字典表。 |
student_cluster | K-Means 聚类结果表,保存学生ID、班级ID、Cluster。 |
student_attendance_stats | 考勤主题标签表,作为扩展标签回写和可视化分析的数据集来源。 |
五、实验步骤
1.进入已有项目
登录平台后进入“数据集成”,继续使用已有项目“学生用户画像标签构建”。该项目包含创建主题表、导入原始数据、学生考勤主题标签、增加考勤群体分类标签等转换流。
图1 登录账号后进入数据集成项目列表。
图2 进入已有项目中的“增加考勤群体分类标签”转换流。
2. 构建考勤主题表与 K-Means 聚类
先执行学生考勤主题标签转换流,生成或更新 student_attendance_stats;随后在人工智能模块配置 K-Means 工作流,固定聚类数为 3,并将结果写入 se_group_20.student_cluster。
图3 学生考勤主题标签转换流画布。
图4 转换流执行日志显示成功。
图5 AI 工作流:数据库加载、K-Means、数据入库。
图6 K-Means 参数设置为固定 3 簇。
图7 数据入库目标表配置为 se_group_20.student_cluster。
图8 AI 工作流任务运行成功。
图9 student_cluster 预览可见聚类输出结果。
3.聚类解释与扩展标签回写
教程 76 要求先观察聚类结果,再将机器生成的 C1/C2/C3 转换为业务标签。本实验在可视化探索中配置六组“两两指标 + 聚类簇编号”的聚类解释圆点图,标记类型选择“圆”,颜色编码选择“聚类簇编号”,用于判断不同簇在迟到、早退、请假、没穿校服上的差异。
图10 迟到次数与早退次数按聚类簇编号对照。
图11 迟到次数与请假次数按聚类簇编号对照。
图12 迟到次数与没穿校服次数按聚类簇编号对照。
图13 早退次数与请假次数按聚类簇编号对照。
图14 早退次数与没穿校服次数按聚类簇编号对照。
图15 请假次数与没穿校服次数按聚类簇编号对照。
按教程后续值映射步骤配置:C1=轻微波动型,C2=自律模范型,C3=纪律高危型;以值映射组件最终配置为准。随后更新组件将 Cluster 与 attendance_group 回写到 student_attendance_stats。
图16 值映射组件配置:Cluster 映射为 attendance_group。
图17 更新组件配置:目标库 se_group_20,目标表 student_attendance_stats。
图18 更新组件关键字与更新字段配置。
图19 数据视图验证:聚类簇编号与考勤群体分类均已有实际值。
4.配置 BI 数据源与数据集
教程 77 的可视化数据集基于 se_group_20.student_attendance_stats。创建 MySQL 数据源并测试连接成功后,在数据集中选择该表,保存发布为“考勤画像数据集”。
图20 MySQL 数据源配置指向团队私有库 se_group_20。
图21 数据源连接测试成功。
图22 数据集选择 se_group_20 中的 student_attendance_stats。
图23 数据集字段和预览数据。
图24 已发布的“考勤画像数据集”在数据集列表中可预览。
5.纪律高危型可视化工作表
可视化分析统一筛选 attendance_group = 纪律高危型。人数类指标使用“学生ID”的去重计数,避免将学生ID求和。
图25 筛选器配置为仅选择“纪律高危型”。
图26 纪律高危型总人数指标卡,去重计数结果为 715。
图27 纪律高危型性别占比饼图。
图28 纪律高危型年级分布柱状图。
图29 校区类型与年级交叉堆叠柱状图。
图30 纪律高危型班级分布水平条图。
图31 工作表发布/保存成功。
6.综合仪表盘
在仪表盘模块进入“纪律高危型学生画像综合仪表盘”,将前述总人数、性别占比、校区年级交叉、年级分布和班级分布等内容集中到同一画布中。画布截图可同时看到多个组件,列表预览截图用于证明发布后的综合效果,分享入口截图用于证明仪表盘可按平台流程继续分享。
图32 仪表盘编辑器左侧可见已保存的多个可视化工作表资源。
图33 综合仪表盘编辑画布:总人数、性别饼图、校区年级交叉图、年级柱状图和班级分布组件集中展示。
图34 仪表盘发布保存后,编辑时间更新且画布保持综合组件。
图35 仪表盘列表预览效果,可同时看到多个可视化组件。
图36 仪表盘分享入口。
六、关键配置说明
配置项 | 本实验配置 | 说明 |
目标数据库 | se_group_20 | 使用本人小组私有库,避免读取公共库或其他组数据。 |
聚类输出表 | student_cluster | 保存 K-Means 输出的学生聚类簇。 |
回写目标表 | student_attendance_stats | 最终画像主题表,也是 BI 数据集来源。 |
值映射 | C1=轻微波动型;C2=自律模范型;C3=纪律高危型 | 按教程后续值映射步骤和组件最终配置执行。 |
可视化筛选 | attendance_group = 纪律高危型 | 聚焦教程 77 的目标学生群体。 |
人数口径 | 学生ID 去重计数 | 用于指标卡、饼图、柱状图和条图的人数统计。 |
七、查询/运行验证
ETL 转换流和 AI 工作流均已运行成功;student_cluster 可预览聚类结果;student_attendance_stats 的数据视图可看到 cluster 与 attendance_group 的实际值。纪律高危型总人数为 715;性别占比中未知性别占比较高,男、女样本量较小,说明基础信息中性别字段仍需进一步治理。
在班级分布中,高三(09)、高三(13)、高二(11)等班级人数较高,说明纪律高危型学生存在一定班级聚集现象。
八、可视化结果分析
从性别看,未知性别占比较高,因此性别图更适合作为数据质量和画像维度完整性的提示;正式管理分析前应补齐或规范性别字段。
从年级看,纪律高危型学生集中在高二、高三,需要结合升学压力、课程安排和班级管理差异进一步分析。
从校区与年级交叉看,不同校区的高危学生分布存在差异,可按校区配置不同的考勤管理策略。
从班级看,部分班级高危人数明显靠前,后续可对这些班级进一步下钻到学生和异常考勤类型层面,制定更具体的干预措施。
九、实验总结
本次实验的关键是把 K-Means 聚类、聚类解释、值映射、扩展标签回写、BI 数据集和可视化分析串成完整闭环。数据库必须使用 se_group_20 私有库,数据集必须基于 student_attendance_stats,人数统计必须使用学生ID去重计数。若误用公共库、其他小组库或学生ID求和,都会导致数据异常。
通过纪律高危型画像分析,可以从总量、性别、年级、校区、班级等角度识别重点关注群体。聚类标签使原始考勤记录转化为可解释、可管理的学生画像标签,为校园考勤管理和后续干预提供了数据支撑。