实验:助睿在线(https://lab.guilian.cn/)
数据规模:1000 用户,800 万+ 条行为记录,约 825MB
技术栈:助睿数智(Uniplore)+ 助睿Max 数据大屏
一、实验概述
本综合实验以浏览器用户行为数据为研究对象,围绕"数据加工 → 大屏设计 → 数据接入"三个阶段,完整实现从原始数据到可视化大屏的全链路分析流程。实验使用助睿数智(Uniplore)一站式数据科学平台,覆盖数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能。
整个实验分为三个紧密衔接的阶段:第一阶段完成数据大屏所需的各项统计表加工;第二阶段基于加工好的数据,使用助睿Max数据大屏完成浏览器市场行为分析大屏的静态布局制作;第三阶段通过蓝图编辑器将数据库中的真实数据接入大屏,使图表能够动态展示数据。
1.1 实验环境
数据处理:助睿 ETL 数据集成平台
可视化工具:助睿Max(数据大屏)
数据来源:团队私有数据库(MySQL)
用户属性数据:demographic.csv(人口属性信息表)
1.2 整体分析框架
在制作数据大屏之前,需要先明确大屏上要展示的内容。大屏的每个图表、每个数字都需要有对应的数据来源。由于原始明细表数据量大,直接查询会导致大屏加载缓慢,因此需要提前将数据加工成聚合后的统计结果。
本实验需要回答的核心业务问题包括:哪个浏览器用户最多?哪个浏览器用户用得最久?用户活跃度在增长还是下降?用户什么时候最活跃?用户是重度使用还是偶尔打开?用户同时用几个浏览器?工作日和周末使用习惯有何不同?核心用户是谁?
二、数据加工阶段
数据加工是整个实验的基础环节。本阶段基于"用户-日-浏览器-小时"明细表,完成数据大屏所需的各项统计表加工。只有将原始明细数据提前聚合为统计结果,才能保证大屏的加载速度和展示效果。
2.1 准备用户-日-浏览器-小时明细表
明细表是后续所有统计表加工的数据基础。首先,打开上个实验创建的"互联网用户行为日志"项目,在团队私有数据库中创建用于存放明细数据的数据表daily_browser_detail,包含user_id、usage_date、browser_name、hour、total_duration_sec、active_count等字段。
实验:助睿在线(https://lab.guilian.cn/)
数据规模:1000 用户,800 万+ 条行为记录,约 825MB
技术栈:助睿数智(Uniplore)+ 助睿Max 数据大屏
一、实验概述
本综合实验以浏览器用户行为数据为研究对象,围绕"数据加工 → 大屏设计 → 数据接入"三个阶段,完整实现从原始数据到可视化大屏的全链路分析流程。实验使用助睿数智(Uniplore)一站式数据科学平台,覆盖数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能。
整个实验分为三个紧密衔接的阶段:第一阶段完成数据大屏所需的各项统计表加工;第二阶段基于加工好的数据,使用助睿Max数据大屏完成浏览器市场行为分析大屏的静态布局制作;第三阶段通过蓝图编辑器将数据库中的真实数据接入大屏,使图表能够动态展示数据。
1.1 实验环境
数据处理:助睿 ETL 数据集成平台
可视化工具:助睿Max(数据大屏)
数据来源:团队私有数据库(MySQL)
用户属性数据:demographic.csv(人口属性信息表)
1.2 整体分析框架
在制作数据大屏之前,需要先明确大屏上要展示的内容。大屏的每个图表、每个数字都需要有对应的数据来源。由于原始明细表数据量大,直接查询会导致大屏加载缓慢,因此需要提前将数据加工成聚合后的统计结果。
本实验需要回答的核心业务问题包括:哪个浏览器用户最多?哪个浏览器用户用得最久?用户活跃度在增长还是下降?用户什么时候最活跃?用户是重度使用还是偶尔打开?用户同时用几个浏览器?工作日和周末使用习惯有何不同?核心用户是谁?
二、数据加工阶段
数据加工是整个实验的基础环节。本阶段基于"用户-日-浏览器-小时"明细表,完成数据大屏所需的各项统计表加工。只有将原始明细数据提前聚合为统计结果,才能保证大屏的加载速度和展示效果。
2.1 准备用户-日-浏览器-小时明细表
明细表是后续所有统计表加工的数据基础。首先,打开上个实验创建的"互联网用户行为日志"项目,在团队私有数据库中创建用于存放明细数据的数据表daily_browser_detail,包含user_id、usage_date、browser_name、hour、total_duration_sec、active_count等字段。
图1:打开"互联网用户行为日志"项目
新建转换流"创建用户_日_浏览器_小时明细表",拖入"执行一个SQL脚本"组件,数据库连接选择"团队私有数据库",输入CREATE TABLE建表语句。
图2:新建转换流并拖入SQL脚本组件
双击"执行一个SQL脚本"组件,配置数据库连接和SQL建表语句,创建daily_browser_detail表。
图3:配置SQL脚本组件创建明细表
点击"运行"按钮执行转换流,成功创建明细表。
图4:执行转换流创建明细表成功
接下来,复制上个实验的"互联网用户行为日志数据清洗抽取"转换流。在文件库中找到该转换流,右键选择"复制"。
图5:复制数据清洗抽取转换流
回到项目根目录,右键选择"粘贴",将复制的转换流粘贴到项目中。
图6:粘贴转换流到项目根目录
粘贴后右键重命名,将转换流重命名为"输出用户日浏览器小时明细表"。同时需要修正"排序记录1"组件的排序字段,使其与分组组件的分组字段(user_id、usage_date、process_name、hour)一致,避免出现重复数据。
图7:重命名转换流并修正排序字段
在分组组件后添加"值映射"组件,将进程名映射为浏览器名称。配置值映射规则:iexplore.exe映射为IE浏览器,360chrome.exe映射为360极速,360se.exe映射为360se,chrome.exe映射为Google,sogouexplorer.exe映射为搜狗,QQBrowser.exe映射为QQ浏览器。
图8:配置值映射组件映射浏览器名称
添加"表输出"组件,配置数据库连接为"团队私有数据库",目标表为daily_browser_detail,勾选"裁剪表"并建立字段映射,执行转换流完成明细表数据输出。
2.2 创建目标数据表与数据抽取
在团队私有数据库中创建本实验需要输出的全部目标表,包括browser_overview、browser_weekly_active、browser_frequency_stats、browser_multi_usage、browser_weekday_weekend和user_profile_stats。随后依次进行各目标表的数据抽取。
各浏览器周活跃趋势数据抽取:使用字段选择组件对usage_date进行格式转换,通过值映射组件将日期映射为周区间,按browser_name和week_range分组统计活跃用户数。
使用频率分布数据抽取:计算每个用户的总使用时长并转换为小时,通过JavaScript代码组件按阈值(轻度<3h、中度3-10h、重度>10h)划分等级,再按浏览器分组统计。
工作日周末对比数据抽取:通过JavaScript判断日期类型,按browser_name和day_type分组统计人均使用时长。核心指标数据抽取:使用SQL一次性算出总使用时长、人均使用时长、活跃用户占比、重度用户占比,通过行转列和值映射存入browser_overview表。
用户画像表加工:从公共空间导出demographic.csv,通过CSV文件输入组件读取数据,计算用户年龄并划分年龄段,使用记录集连接组件关联行为数据与用户属性数据,按多维度分组统计用户数。
三、大屏静态布局制作阶段
在完成数据加工后,进入大屏设计阶段。本阶段使用助睿Max数据大屏平台,基于已加工好的统计表,完成浏览器市场行为分析大屏的静态布局制作。大屏设计遵循"从上到下、从左到右"的叙事顺序,先整体后局部,先趋势后细节。
3.1 进入数据大屏平台
点击实验平台左侧菜单"数据大屏",进入助睿数据大屏可视化平台。该平台是一款通过图形化界面轻松搭建专业可视化应用的产品,适用于会议展览、业务监控、风险预警等场景。
图9:进入数据大屏平台
进入大屏管理中心后,点击"+新建"按钮,选择"新建大屏"。
图10:点击新建大屏
在模板选择中点击"空白模板",输入大屏名称"市场分析",进入大屏制作界面。
图11:选择空白模板并命名
3.2 设置大屏背景与标题
进入大屏编辑页面后,右侧页面设置栏显示屏幕大小默认为1920x1080。将背景图片链接粘贴到"背景图片"文本框中,设置深色科技风背景。
图12:设置大屏背景图片
添加标题banner:点击左侧"媒体"组件分类,选择"单张图片"组件拖入画布。右键组件选择"重命名",命名为"标题banner",在右侧属性面板中设置图片链接和位置大小。
图13:右键重命名组件
图14:选中标题banner组件并配置属性
设置导航按钮:添加"单张图片"组件作为按钮背景,添加"通用标题"组件作为按钮文字,分别配置"市场分析"和"用户画像"两个导航按钮。将顶部所有组件成组,命名为"顶部"。
3.3 图表区域布局
根据大屏布局草图,将各图表进行排版。每个图表区域由区域背景、标题背景、标题和图表四部分组成。按照"先制作一个标准区域,再复制修改"的策略,依次完成所有图表区域的布局。
图15:大屏布局草图
首先制作左上角"浏览器用户数"图表区域:添加区域背景图片组件,添加标题背景和通用标题,拖入"基础柱状图"组件,调整图例和柱子上边距等样式。将该组复制为"浏览器使用时长"组,删除柱状图,替换为"多维度饼图",设置各浏览器颜色。继续复制制作"人均使用时长"、"数据概览指标区"、"工作日vs周末"、"24小时活跃分布"、"周活跃趋势"、"使用频率分布"、"浏览器使用数量分布"等图表区域。
图16:大屏静态布局完成效果
四、大屏数据接入阶段
在完成大屏静态布局后,进入数据接入阶段。本阶段使用助睿Max的蓝图编辑器,将加工好的数据表接入到大屏的各个图表组件中,使图表能够动态展示真实数据。蓝图编辑器采用"节点-连线"的方式管理组件之间的交互关系,核心概念包括:数据源(数据库连接配置)、查询(SQL语句)、触发器(触发数据加载的事件)、动作(触发器执行后的操作)和变量(用于在查询之间传递参数)。
4.1 创建数据库数据源
进入数据大屏平台后,点击顶部"我的数据"标签,切换到数据源管理界面。点击"+新建"按钮,选择"新建数据源"。
图17:进入我的数据管理界面
图18:选择新建数据源
在数据源配置界面中,数据源类型选择MySQL,输入团队私有数据库的地址、端口、用户名和密码,点击"立即添加"完成数据源创建。
图19:配置MySQL数据源连接信息
创建成功后,切换tab选项再切回"我的数据",即可在数据源列表中看到新添加的"团队私有数据库"。
图20:确认团队私有数据库已添加
4.2 组件导出到蓝图编辑器
打开"市场分析"数据大屏,在画布编辑器内,右键单击左侧图层栏或中间画布区的组件,选择"导出到蓝图编辑器"。依次把所有需要接入数据的组件(柱状图、饼图、折线图、数字翻牌器等)全部导出。
图21:市场分析大屏编辑界面
4.3 蓝图编辑器配置数据流
切换到蓝图编辑器页面,从逻辑节点面板中拖入全局节点。全局节点的"页面初始化完成"输出接口将在大屏打开时自动触发后续数据加载。
图22:蓝图编辑器界面
添加SQL请求节点,连接全局节点,配置数据源和SQL查询语句。以browser_coverage表为例,一次性查询各浏览器的用户数、总使用时长和人均使用时长。通过并行数据处理组件将结果分发到多个图表,每个处理方法提取对应字段后绑定到图表节点。
按照相同流程,依次为browser_overview(指标卡)、browser_weekday_weekend(分组柱状图)、browser_hourly(区域图)、browser_weekly_active(折线图)、browser_frequency_stats(堆叠柱图)、browser_multi_usage(饼图)配置数据。
4.4 预览并发布
所有组件的样式和数据都配置完成后,点击右上角"预览"图标预览可视化应用,确认各图表数据展示正确。预览确认无误后,点击"发布"图标,在弹出的发布对话框中单击"发布分享",复制分享链接即可在线观看。
图23:大屏最终发布效果预览
五、实验总结
本综合实验完整实现了从原始数据到可视化大屏的全链路分析流程。在数据加工阶段,通过助睿ETL平台完成了8张目标统计表的加工,涵盖了浏览器市场格局、用户行为、时段偏好、竞争关系和用户画像等多个分析维度。在大屏设计阶段,基于助睿Max平台完成了包含指标卡、柱状图、饼图、折线图、区域图等多种图表类型的大屏布局。在数据接入阶段,通过蓝图编辑器的节点-连线方式,将6张数据表接入到对应的图表组件中,实现了数据的动态展示。
通过本实验,系统掌握了数据加工(ETL转换流设计、SQL聚合、JavaScript数据处理)、大屏设计(布局规划、组件配置、样式调整)和数据接入(蓝图编辑器、SQL查询、数据绑定)三大核心技能,为后续的数据分析与可视化工作奠定了坚实基础。
图1:打开"互联网用户行为日志"项目
新建转换流"创建用户_日_浏览器_小时明细表",拖入"执行一个SQL脚本"组件,数据库连接选择"团队私有数据库",输入CREATE TABLE建表语句。
图2:新建转换流并拖入SQL脚本组件
双击"执行一个SQL脚本"组件,配置数据库连接和SQL建表语句,创建daily_browser_detail表。
图3:配置SQL脚本组件创建明细表
点击"运行"按钮执行转换流,成功创建明细表。
图4:执行转换流创建明细表成功
接下来,复制上个实验的"互联网用户行为日志数据清洗抽取"转换流。在文件库中找到该转换流,右键选择"复制"。
图5:复制数据清洗抽取转换流
回到项目根目录,右键选择"粘贴",将复制的转换流粘贴到项目中。
图6:粘贴转换流到项目根目录
粘贴后右键重命名,将转换流重命名为"输出用户日浏览器小时明细表"。同时需要修正"排序记录1"组件的排序字段,使其与分组组件的分组字段(user_id、usage_date、process_name、hour)一致,避免出现重复数据。
图7:重命名转换流并修正排序字段
在分组组件后添加"值映射"组件,将进程名映射为浏览器名称。配置值映射规则:iexplore.exe映射为IE浏览器,360chrome.exe映射为360极速,360se.exe映射为360se,chrome.exe映射为Google,sogouexplorer.exe映射为搜狗,QQBrowser.exe映射为QQ浏览器。
图8:配置值映射组件映射浏览器名称
添加"表输出"组件,配置数据库连接为"团队私有数据库",目标表为daily_browser_detail,勾选"裁剪表"并建立字段映射,执行转换流完成明细表数据输出。
2.2 创建目标数据表与数据抽取
在团队私有数据库中创建本实验需要输出的全部目标表,包括browser_overview、browser_weekly_active、browser_frequency_stats、browser_multi_usage、browser_weekday_weekend和user_profile_stats。随后依次进行各目标表的数据抽取。
各浏览器周活跃趋势数据抽取:使用字段选择组件对usage_date进行格式转换,通过值映射组件将日期映射为周区间,按browser_name和week_range分组统计活跃用户数。
使用频率分布数据抽取:计算每个用户的总使用时长并转换为小时,通过JavaScript代码组件按阈值(轻度<3h、中度3-10h、重度>10h)划分等级,再按浏览器分组统计。
工作日周末对比数据抽取:通过JavaScript判断日期类型,按browser_name和day_type分组统计人均使用时长。核心指标数据抽取:使用SQL一次性算出总使用时长、人均使用时长、活跃用户占比、重度用户占比,通过行转列和值映射存入browser_overview表。
用户画像表加工:从公共空间导出demographic.csv,通过CSV文件输入组件读取数据,计算用户年龄并划分年龄段,使用记录集连接组件关联行为数据与用户属性数据,按多维度分组统计用户数。
三、大屏静态布局制作阶段
在完成数据加工后,进入大屏设计阶段。本阶段使用助睿Max数据大屏平台,基于已加工好的统计表,完成浏览器市场行为分析大屏的静态布局制作。大屏设计遵循"从上到下、从左到右"的叙事顺序,先整体后局部,先趋势后细节。
3.1 进入数据大屏平台
点击实验平台左侧菜单"数据大屏",进入助睿数据大屏可视化平台。该平台是一款通过图形化界面轻松搭建专业可视化应用的产品,适用于会议展览、业务监控、风险预警等场景。
图9:进入数据大屏平台
进入大屏管理中心后,点击"+新建"按钮,选择"新建大屏"。
图10:点击新建大屏
在模板选择中点击"空白模板",输入大屏名称"市场分析",进入大屏制作界面。
图11:选择空白模板并命名
3.2 设置大屏背景与标题
进入大屏编辑页面后,右侧页面设置栏显示屏幕大小默认为1920x1080。将背景图片链接粘贴到"背景图片"文本框中,设置深色科技风背景。
图12:设置大屏背景图片
添加标题banner:点击左侧"媒体"组件分类,选择"单张图片"组件拖入画布。右键组件选择"重命名",命名为"标题banner",在右侧属性面板中设置图片链接和位置大小。
图13:右键重命名组件
图14:选中标题banner组件并配置属性
设置导航按钮:添加"单张图片"组件作为按钮背景,添加"通用标题"组件作为按钮文字,分别配置"市场分析"和"用户画像"两个导航按钮。将顶部所有组件成组,命名为"顶部"。
3.3 图表区域布局
根据大屏布局草图,将各图表进行排版。每个图表区域由区域背景、标题背景、标题和图表四部分组成。按照"先制作一个标准区域,再复制修改"的策略,依次完成所有图表区域的布局。
图15:大屏布局草图
首先制作左上角"浏览器用户数"图表区域:添加区域背景图片组件,添加标题背景和通用标题,拖入"基础柱状图"组件,调整图例和柱子上边距等样式。将该组复制为"浏览器使用时长"组,删除柱状图,替换为"多维度饼图",设置各浏览器颜色。继续复制制作"人均使用时长"、"数据概览指标区"、"工作日vs周末"、"24小时活跃分布"、"周活跃趋势"、"使用频率分布"、"浏览器使用数量分布"等图表区域。
图16:大屏静态布局完成效果
四、大屏数据接入阶段
在完成大屏静态布局后,进入数据接入阶段。本阶段使用助睿Max的蓝图编辑器,将加工好的数据表接入到大屏的各个图表组件中,使图表能够动态展示真实数据。蓝图编辑器采用"节点-连线"的方式管理组件之间的交互关系,核心概念包括:数据源(数据库连接配置)、查询(SQL语句)、触发器(触发数据加载的事件)、动作(触发器执行后的操作)和变量(用于在查询之间传递参数)。
4.1 创建数据库数据源
进入数据大屏平台后,点击顶部"我的数据"标签,切换到数据源管理界面。点击"+新建"按钮,选择"新建数据源"。
图17:进入我的数据管理界面
图18:选择新建数据源
在数据源配置界面中,数据源类型选择MySQL,输入团队私有数据库的地址、端口、用户名和密码,点击"立即添加"完成数据源创建。
图19:配置MySQL数据源连接信息
创建成功后,切换tab选项再切回"我的数据",即可在数据源列表中看到新添加的"团队私有数据库"。
图20:确认团队私有数据库已添加
4.2 组件导出到蓝图编辑器
打开"市场分析"数据大屏,在画布编辑器内,右键单击左侧图层栏或中间画布区的组件,选择"导出到蓝图编辑器"。依次把所有需要接入数据的组件(柱状图、饼图、折线图、数字翻牌器等)全部导出。
图21:市场分析大屏编辑界面
4.3 蓝图编辑器配置数据流
切换到蓝图编辑器页面,从逻辑节点面板中拖入全局节点。全局节点的"页面初始化完成"输出接口将在大屏打开时自动触发后续数据加载。
图22:蓝图编辑器界面
添加SQL请求节点,连接全局节点,配置数据源和SQL查询语句。以browser_coverage表为例,一次性查询各浏览器的用户数、总使用时长和人均使用时长。通过并行数据处理组件将结果分发到多个图表,每个处理方法提取对应字段后绑定到图表节点。
按照相同流程,依次为browser_overview(指标卡)、browser_weekday_weekend(分组柱状图)、browser_hourly(区域图)、browser_weekly_active(折线图)、browser_frequency_stats(堆叠柱图)、browser_multi_usage(饼图)配置数据。
4.4 预览并发布
所有组件的样式和数据都配置完成后,点击右上角"预览"图标预览可视化应用,确认各图表数据展示正确。预览确认无误后,点击"发布"图标,在弹出的发布对话框中单击"发布分享",复制分享链接即可在线观看。
图23:大屏最终发布效果预览
五、实验总结
本综合实验完整实现了从原始数据到可视化大屏的全链路分析流程。在数据加工阶段,通过助睿ETL平台完成了8张目标统计表的加工,涵盖了浏览器市场格局、用户行为、时段偏好、竞争关系和用户画像等多个分析维度。在大屏设计阶段,基于助睿Max平台完成了包含指标卡、柱状图、饼图、折线图、区域图等多种图表类型的大屏布局。在数据接入阶段,通过蓝图编辑器的节点-连线方式,将6张数据表接入到对应的图表组件中,实现了数据的动态展示。
通过本实验,系统掌握了数据加工(ETL转换流设计、SQL聚合、JavaScript数据处理)、大屏设计(布局规划、组件配置、样式调整)和数据接入(蓝图编辑器、SQL查询、数据绑定)三大核心技能,为后续的数据分析与可视化工作奠定了坚实基础。