【助睿实验指导】学生用户画像-考勤主题扩展标签构建
1 实验说明
1.1 实验目的
基于已成型的学生考勤主题标签表,采用K-Means聚类算法对全体学生考勤行为自动分组。以迟到、早退、请假、校服违规次数四大核心指标为依据,区分不同考勤行为群体,生成可落地解读的学生考勤画像,为校园日常管控、学生行为矫正、学情精细化分析提供数据支撑。
1.2 实验环境
整体基于Uniplore助睿数智线上实验平台操作,配套工具与数据环境如下
1. 功能模块:助睿ETL数据集成、AI Studio人工智能建模、助睿BI数据可视化
2. 数据库:MySQL团队私有数据库
3. 前置基础数据:学生考勤主题标签表`student_attendance_stats`
2 实验数据
2.1 数据构成
取用上一轮实验输出的标准化考勤统计数据表,集合学生个人基础信息、班级信息、各类考勤异常统计数据,数据规整无脏数据,可直接用于聚类建模分析。
2.2 字段说明
|字段名称|字段含义|数据类型|
| ---- | ---- | ---- |
|id|数据表自增主键|整型|
|student_id|学生唯一编号|整型|
|student_name|学生姓名|文本型|
|class_id|班级编号|整型|
|class_name|班级名称|文本型|
|grade|就读年级|分类文本|
|gender|性别|二分类|
|birth_date|出生日期|日期文本|
|political_status|政治面貌|分类文本|
|is_boarder|是否住校|二分类|
|campus_type|所属校区|分类文本|
|late_count|迟到累计次数|整型|
|early_leave_count|早退累计次数|整型|
|leave_count|请假累计次数|整型|
|uniform_violate_count|校服违规次数|整型|
|create_time|数据统计入库时间|日期时间型|
2.3 建模思路
1. 特征筛选:仅选取迟到、早退、请假、校服违规4项考勤行为数据作为聚类特征,字段业务独立、无冗余干扰,无需降维处理
2. 算法适配:统计次数均为非负连续数值,符合K-Means算法输入要求,无需额外编码转换,简化预处理流程
3. 辅助区分:性别、年级、住宿等基础资料不参与聚类计算,仅后续用作群体画像补充解释
3 详细实验操作步骤
3.1 AI Studio平台K-Means聚类建模
3.1.1 新建空白工作流
1. 登录实验平台,左侧菜单栏点击人工智能,进入AI Studio建模空间
页面点击加号按钮,选择新建工作流,生成空白建模画布
3. 界面分为功能菜单栏、算法控件库、流程画布三大区域,后续拖拽组件搭建流程
3.1.2 导入实验考勤数据
1. 在控件列表搜索数据库加载组件,拖拽至空白画布中
2. 双击组件,右侧弹出参数面板,填写团队私有MySQL数据库账号密码,点击连接数据库
数据表下拉列表选中`student_attendance_stats`考勤标签表
筛选保留字段:仅勾选student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,其余字段标记跳过
5. 设定字段属性:编号类设为分类型,考勤次数设为数值型,确认保存配置
6. 右键点击数据库加载控件,选择运行该控件,运行完成后查看输出数据,校验数据无误
3.1.3 搭建K-Means聚类模型
1. 控件库拖拽K-Means聚类组件,用连线将数据库加载组件与聚类组件首尾相连
双击聚类组件进入配置页面,固定聚类簇数量设置为3簇,其余参数保持系统默认
3. 右键运行聚类控件,执行模型计算
4. 运行结束查看结果,每条学生数据自动附带C1、C2、C3聚类簇编号
3.1.4 聚类结果导出保存
1. 拖拽数据入库组件,连线接入聚类输出端口
双击数据入库组件,填写私有数据库连接信息,获取数据表列表
选择新建数据表,命名为`student_cluster`,确认创建存储表
4. 点击运行整体工作流,全部控件显示运行成功,代表聚类数据完整存入数据库
3.2 助睿BI可视化分析聚类群体
3.2.1 平台内连接数据源
1. 左侧菜单切换至助睿BI可视化平台
2. 点击左侧数据源,左上角加号选择新建连接,数据库类型选定MySQL
3. 录入团队数据库账号信息,点击测试连接,提示连接成功后确认保存
展开新建数据库目录,可预览`student_cluster`聚类数据表内容
3.2.2 构建专属分析数据集
1. 侧边栏点击数据集,新建空白数据集,填写名称与备注信息
数据源选择刚刚绑定的私有数据库,定位labs数据目录
将`student_cluster`数据表拖拽至数据集编辑画布
依次修改字段中文备注:student_id改为学生ID、Cluster改为聚类簇编号,所有考勤次数字段统一汉化命名
编辑完成后保存并发布数据集,发布后方可用于图表制作
3.2.3 制作多维度分析工作表
1. 左侧进入工作表模块,新建分组文件夹归类本次分析内容
在分组内新建工作表,图表样式选择探索器散点图,绑定已发布数据集
第一张表:X轴放置迟到次数、Y轴放置早退次数,颜色维度绑定聚类簇编号,信息栏挂载学生ID
4. 将数据展示限额调整为100%,完整加载全部学生数据,自定义聚类组别区分颜色
按照同样操作,依次新建五张工作表,分别组合:迟到&请假、迟到&校服违规、早退&请假、早退&校服违规、请假&校服违规,完成6组指标对比图表
6. 每张工作表编辑完毕均保存发布
3.2.4 整合可视化分析仪表盘
1. 左侧点击仪表盘,新建仪表盘并命名为聚类簇分析
2. 拖拽文本基础组件,输入标题文字,调整字体大小、样式并居中摆放,固定组件位置
3. 切换工作表素材库,将6张分析图表全部拖拽至仪表盘画布
4. 拖动边框调整图表尺寸、排布布局,规整页面展示效果
5. 整体检查无误后,保存并发布仪表盘
3.2.5 聚类群体画像分类解读
对照六组散点图数据分布规律,划分三类学生考勤群体
1. C1 自律模范型:各项考勤违规次数处于最低区间,无违纪行为,出勤表现稳定规范
2. C2 轻微波动型:整体考勤状态良好,仅偶尔出现请假、校服违规小问题,无频繁迟到早退
3. C3 纪律高危型:迟到早退频次偏高,叠加多项违规行为,违纪问题突出,属于重点管理人群
|聚类簇编号|群体名称|核心行为特征|
| ---- | ---- | ---- |
|C1|自律模范型|全维度考勤异常次数极低,纪律性强|
|C2|轻微波动型|基本遵守考勤制度,偶发少量轻微违规|
|C3|纪律高危型|多项违纪行为叠加,考勤问题较为严重|
3.3 ETL工具新增考勤扩展标签至原数据表
3.3.1 原数据表新增拓展字段
1. 切换回到助睿ETL数据集成平台,打开原有考勤处理项目
2. 新建转换流,拖拽执行SQL脚本组件到画布
3. 绑定团队私有数据库连接,输入新增字段语句
```sql
ALTER TABLE student_attendance_stats
ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',
ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';
```
运行SQL组件,为原始考勤表添加两个空白拓展字段
3.3.2 读取调取聚类结果数据
1. 在新建转换流内,拖拽表输入组件,连接私有数据库
2. 选定`student_cluster`聚类结果表,读取全量数据接入流程
拖拽字段选择组件,连线承接表输入数据
3.3.3 筛选规整有效字段
1. 双击字段选择组件,剔除多余无用字段,仅保留student_id、Cluster两个关键字段
进入元数据设置页面,统一字段数据类型,保证与原数据表格式匹配,避免更新报错
3. 确认字段配置,完成数据精简处理
3.3.4 聚类编号映射中文群体标签
1. 拖拽值映射组件,承接筛选后的字段数据
2. 映射源字段选择Cluster聚类编号,新建目标字段attendance_group
3. 逐条添加映射规则
- 源值C1 → 目标值 自律模范型
- 源值C2 → 目标值 轻微波动型
- 源值C3 → 目标值 纪律高危型
4. 保存映射规则,完成编号到文字标签转换
3.3.5 配置数据更新写入规则
1. 画布添加更新组件,接入映射完成后的数据流
2. 数据库选择私有库,目标数据表选定`student_attendance_stats`、
3. 匹配关键字段:以student_id学生编号作为唯一匹配依据
4. 设置更新对应关系:流内cluster写入表内聚类编号字段,attendance_group写入群体分类字段
3.3.6 整体运行ETL转换流程
1. 检查全部组件连线、参数配置无误后,点击运行按钮执行转换流
2. 查看运行日志,确认数据更新条数,无报错即为流程执行成功
3.3.7 核查最终标签入库结果
1. 重新加载数据库元数据,刷新数据表信息
2. 打开`student_attendance_stats`考勤主表,查询表格数据
3. 核验新增的聚类编号、考勤群体分类字段均已正常填充内容,标签构建完成
4 实验总结
本次实验全程依托助睿数智平台完成全流程数据分析,先在AI Studio使用K-Means聚类算法,依据四项考勤异常指标自动完成学生群体划分;再借助助睿BI制作多维度散点图表与汇总仪表盘,直观分析数据分布特点,将机器生成的聚类编号转化为贴合校园管理的三类学生画像。最后通过ETL数据处理工具,新增数据表字段,把聚类分类标签同步更新至原始考勤统计表,顺利完成考勤主题扩展标签搭建。生成的分层学生数据画像,能够帮助校方针对性开展纪律管理、思想引导与个性化教育,实现校园考勤数据的实际业务落地应用。