学生用户画像-考勤主题扩展标签构建、可视化实验文档-编程实验室

学生用户画像：考勤主题扩展标签构建与可视化

一、实验名称

实验课3：学生用户画像-考勤主题扩展标签构建、可视化。

二、实验目的

基于 student_attendance_stats 学生考勤主题标签表，使用 K-Means 对迟到、早退、请假、没穿校服等行为指标进行自动分群。
将聚类簇编号解释为可理解的考勤群体标签，并回写 cluster、attendance_group 扩展字段。
在助睿 BI 中基于 se_group_20 私有库构建数据集、工作表和仪表盘，完成纪律高危型学生画像分析。
通过性别、年级、校区、班级等维度识别纪律高危型学生分布特征，为精细化管理提供数据依据。

三、实验环境

项目	说明
平台	贵兰 X 助睿实践教学平台：https://lab.guilan.cn/
教程	https://community.uniplore.com/t/topic/76；https://community.uniplore.com/t/topic/77
项目使用	继续使用已有“学生用户画像标签构建”项目，未新建无关项目。
数据库	团队私有库 se_group_20，不使用公共示例库作为最终数据源。
核心表	student_cluster、student_attendance_stats

四、实验数据说明

实验数据来自 se_group_20 中的学生考勤主题表。student_attendance_stats 汇总学生信息、班级、年级、校区类型、迟到次数、早退次数、请假次数、没穿校服次数等字段；K-Means 输出写入 student_cluster 后，再通过扩展标签转换流回写到 student_attendance_stats。

表名	用途
raw_student_info	学生基础信息来源表。
raw_attendance	学生考勤记录来源表。
raw_attendance_type	考勤类型字典表。
student_cluster	K-Means 聚类结果表，保存学生ID、班级ID、Cluster。
student_attendance_stats	考勤主题标签表，作为扩展标签回写和可视化分析的数据集来源。

五、实验步骤

1.进入已有项目

登录平台后进入“数据集成”，继续使用已有项目“学生用户画像标签构建”。该项目包含创建主题表、导入原始数据、学生考勤主题标签、增加考勤群体分类标签等转换流。

图1 登录账号后进入数据集成项目列表。

图2 进入已有项目中的“增加考勤群体分类标签”转换流。

2. 构建考勤主题表与 K-Means 聚类

先执行学生考勤主题标签转换流，生成或更新 student_attendance_stats；随后在人工智能模块配置 K-Means 工作流，固定聚类数为 3，并将结果写入 se_group_20.student_cluster。

图3 学生考勤主题标签转换流画布。

图4 转换流执行日志显示成功。

图5 AI 工作流：数据库加载、K-Means、数据入库。

图6 K-Means 参数设置为固定 3 簇。

图7 数据入库目标表配置为 se_group_20.student_cluster。

图8 AI 工作流任务运行成功。

图9 student_cluster 预览可见聚类输出结果。

3.聚类解释与扩展标签回写

教程 76 要求先观察聚类结果，再将机器生成的 C1/C2/C3 转换为业务标签。本实验在可视化探索中配置六组“两两指标 + 聚类簇编号”的聚类解释圆点图，标记类型选择“圆”，颜色编码选择“聚类簇编号”，用于判断不同簇在迟到、早退、请假、没穿校服上的差异。

图10 迟到次数与早退次数按聚类簇编号对照。

图11 迟到次数与请假次数按聚类簇编号对照。

图12 迟到次数与没穿校服次数按聚类簇编号对照。

图13 早退次数与请假次数按聚类簇编号对照。

图14 早退次数与没穿校服次数按聚类簇编号对照。

图15 请假次数与没穿校服次数按聚类簇编号对照。

按教程后续值映射步骤配置：C1=轻微波动型，C2=自律模范型，C3=纪律高危型；以值映射组件最终配置为准。随后更新组件将 Cluster 与 attendance_group 回写到 student_attendance_stats。

图16 值映射组件配置：Cluster 映射为 attendance_group。

图17 更新组件配置：目标库 se_group_20，目标表 student_attendance_stats。

图18 更新组件关键字与更新字段配置。

图19 数据视图验证：聚类簇编号与考勤群体分类均已有实际值。

4.配置 BI 数据源与数据集

教程 77 的可视化数据集基于 se_group_20.student_attendance_stats。创建 MySQL 数据源并测试连接成功后，在数据集中选择该表，保存发布为“考勤画像数据集”。

图20 MySQL 数据源配置指向团队私有库 se_group_20。

图21 数据源连接测试成功。

图22 数据集选择 se_group_20 中的 student_attendance_stats。

图23 数据集字段和预览数据。

图24 已发布的“考勤画像数据集”在数据集列表中可预览。

5.纪律高危型可视化工作表

可视化分析统一筛选 attendance_group = 纪律高危型。人数类指标使用“学生ID”的去重计数，避免将学生ID求和。

图25 筛选器配置为仅选择“纪律高危型”。

图26 纪律高危型总人数指标卡，去重计数结果为 715。

图27 纪律高危型性别占比饼图。

图28 纪律高危型年级分布柱状图。

图29 校区类型与年级交叉堆叠柱状图。

图30 纪律高危型班级分布水平条图。

图31 工作表发布/保存成功。

6.综合仪表盘

在仪表盘模块进入“纪律高危型学生画像综合仪表盘”，将前述总人数、性别占比、校区年级交叉、年级分布和班级分布等内容集中到同一画布中。画布截图可同时看到多个组件，列表预览截图用于证明发布后的综合效果，分享入口截图用于证明仪表盘可按平台流程继续分享。

图32 仪表盘编辑器左侧可见已保存的多个可视化工作表资源。

图33 综合仪表盘编辑画布：总人数、性别饼图、校区年级交叉图、年级柱状图和班级分布组件集中展示。

图34 仪表盘发布保存后，编辑时间更新且画布保持综合组件。

图35 仪表盘列表预览效果，可同时看到多个可视化组件。

图36 仪表盘分享入口。

六、关键配置说明

配置项	本实验配置	说明
目标数据库	se_group_20	使用本人小组私有库，避免读取公共库或其他组数据。
聚类输出表	student_cluster	保存 K-Means 输出的学生聚类簇。
回写目标表	student_attendance_stats	最终画像主题表，也是 BI 数据集来源。
值映射	C1=轻微波动型；C2=自律模范型；C3=纪律高危型	按教程后续值映射步骤和组件最终配置执行。
可视化筛选	attendance_group = 纪律高危型	聚焦教程 77 的目标学生群体。
人数口径	学生ID 去重计数	用于指标卡、饼图、柱状图和条图的人数统计。

七、查询/运行验证

ETL 转换流和 AI 工作流均已运行成功；student_cluster 可预览聚类结果；student_attendance_stats 的数据视图可看到 cluster 与 attendance_group 的实际值。纪律高危型总人数为 715；性别占比中未知性别占比较高，男、女样本量较小，说明基础信息中性别字段仍需进一步治理。

在班级分布中，高三(09)、高三(13)、高二(11)等班级人数较高，说明纪律高危型学生存在一定班级聚集现象。

八、可视化结果分析

从性别看，未知性别占比较高，因此性别图更适合作为数据质量和画像维度完整性的提示；正式管理分析前应补齐或规范性别字段。

从年级看，纪律高危型学生集中在高二、高三，需要结合升学压力、课程安排和班级管理差异进一步分析。

从校区与年级交叉看，不同校区的高危学生分布存在差异，可按校区配置不同的考勤管理策略。

从班级看，部分班级高危人数明显靠前，后续可对这些班级进一步下钻到学生和异常考勤类型层面，制定更具体的干预措施。

九、实验总结

本次实验的关键是把 K-Means 聚类、聚类解释、值映射、扩展标签回写、BI 数据集和可视化分析串成完整闭环。数据库必须使用 se_group_20 私有库，数据集必须基于 student_attendance_stats，人数统计必须使用学生ID去重计数。若误用公共库、其他小组库或学生ID求和，都会导致数据异常。

通过纪律高危型画像分析，可以从总量、性别、年级、校区、班级等角度识别重点关注群体。聚类标签使原始考勤记录转化为可解释、可管理的学生画像标签，为校园考勤管理和后续干预提供了数据支撑。