news 2026/6/9 1:42:38

ETL实验5

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ETL实验5

浏览器市场与用户画像分析实验报告

一、实验目的

本实验基于“用户-日-浏览器-小时”明细数据,完成数据大屏所需的各项统计表加工,并利用可视化工具制作可交互的数据大屏。通过实验掌握:

  • 浏览器行为数据的分组聚合与指标统计(覆盖率、活跃趋势、使用频率、竞品重叠等)

  • 用户画像的多维度分布统计(性别、年龄、学历、职业、收入、地域)

  • 大屏布局设计原则与图表选型

  • 数据源接入与蓝图编辑器配置

二、实验环境

  • 平台:助睿在线实验平台(https://lab.guilian.cn/)

  • 工具:助睿数智(Uniplore)ETL、AI平台、Max数据大屏

  • 数据规模:1000用户,800万+行为记录(约825MB)

三、实验数据

数据表说明
daily_browser_detail用户-日-浏览器-小时明细表(本实验加工产出)
demographic.csv用户人口属性(性别、出生年份、学历、职业、收入、省份、居住地类型)
已产出表browser_coveragebrowser_hourly(上实验输出)

四、业务分析框架

4.1 核心业务问题

问题对应维度
哪个浏览器用户最多?用得最久?市场格局(用户数、使用时长、人均时长)
用户活跃度趋势如何?周活跃趋势
用户何时最活跃?时段偏好(24小时分布)
重度用户还是轻度使用?使用频率分布
用户同时用几个浏览器?浏览器使用数量
工作日与周末习惯差异?工作日vs周末对比
核心用户画像?性别、年龄、学历、职业、收入、地域

4.2 目标表设计

目标表用途
browser_overview核心指标卡(总时长、人均时长、活跃占比、重度占比)
browser_coverage市场格局(用户数、使用时长、人均时长)
browser_weekly_active周活跃趋势
browser_hourly24小时活跃分布
browser_frequency_stats使用频率分布(轻/中/重度)
browser_multi_usage浏览器使用数量分布(1种/2种/3种+)
browser_weekday_weekend工作日vs周末人均使用时长
user_profile_stats用户画像(按浏览器分组各维度用户数)

五、实验步骤(数据加工)

5.1 创建明细表daily_browser_detail

sql

CREATE TABLE daily_browser_detail ( user_id VARCHAR(50) NOT NULL, usage_date DATE NOT NULL, browser_name VARCHAR(50) NOT NULL, hour TINYINT NOT NULL, total_duration_sec INT NOT NULL, active_count INT NOT NULL );

复制上实验的转换流,修正排序字段与分组字段一致,添加浏览器名称值映射(iexplore.exe→IE,chrome.exe→Google等),输出到明细表。

5.2 创建目标表结构

执行SQL脚本创建8张目标表(略,详见原实验SQL)。

5.3 各浏览器周活跃趋势

  • usage_date映射为周区间(如“5/7-5/13”)

  • browser_name, week_range分组,对user_id去重计数 →browser_weekly_active

5.4 使用频率分布

  • user_id, browser_name分组,求和total_duration_sec得到总秒数

  • 转为小时,划分等级:<3h轻度,3-10h中度,>10h重度

  • browser_name, usage_level分组,统计用户数 →browser_frequency_stats

5.5 浏览器使用数量分布

  • user_id分组,对browser_name去重计数

  • 划分等级:1种/2种/3种及以上

  • 按等级分组统计用户数 →browser_multi_usage

5.6 工作日vs周末对比

  • 根据usage_date计算星期几,1-5为工作日,6-7为周末

  • browser_name, day_type分组,计算人均时长、总时长、用户数 →browser_weekday_weekend

5.7 核心指标概览

一次性SQL计算总时长、人均时长、活跃占比(最后一周活跃用户/总用户)、重度占比(>30小时/四周用户占比),列转行存入browser_overview

5.8 用户画像统计

  • 读取demographic.csv,根据出生年份计算年龄并分段(<18,18-25,26-35,>35)

  • 关联明细表daily_browser_detail(按 user_id 左连接)

  • browser_name, gender, age_group, edu, job, income, province, city_type分组统计用户数 →user_profile_stats

六、实验步骤(大屏静态布局)

6.1 创建大屏

  • 新建空白大屏,命名“市场分析”

  • 设置背景图、标题 banner、导航按钮(市场分析/用户画像双屏跳转)

6.2 布局与组件放置

按照“从上到下、从左到右”叙事顺序,放置以下区域:

区域组件类型数据来源表
顶部指标卡数据翻牌器 ×4browser_overview
市场格局柱状图(用户数)、饼图(使用时长)、柱状图(人均时长)browser_coverage
周活跃趋势折线图browser_weekly_active
使用频率堆叠柱状图browser_frequency_stats
时段偏好折线图(24h)、分组柱状图(工作日vs周末)browser_hourlybrowser_weekday_weekend
竞争关系饼图(浏览器使用数量)browser_multi_usage

每个图表区域包含:区域背景、标题背景、标题文字、具体图表组件。

七、实验步骤(蓝图数据接入)

7.1 创建数据源

在“我的数据”中新建 MySQL 数据源,连接团队私有数据库。

7.2 导出组件到蓝图编辑器

右键每个图表组件 → “导出到蓝图编辑器”。

7.3 配置数据流(核心示例)

(1)市场格局三图表(共用SQL)

sql

select browser_name as x, user_count as y1, round(total_duration_sec/3600,0) as y2, round((total_duration_sec/3600)/user_count,1) as y3 from labs.browser_coverage order by browser_name

通过“并行数据处理”节点分别映射:

  • 用户数柱状图:{x, y: y1}

  • 使用时长饼图:{name, value: y2}

  • 人均时长柱状图:{x, y: y3}

(2)指标卡(共用SQL)

sql

select metric_name, metric_value from labs.browser_overview

并行处理按指标名称过滤,输出[{value: ...}]给各翻牌器。

(3)其他图表各自配置SQL查询
  • 工作日vs周末:select browser_name as x, avg_duration_sec as y, day_type as s from ...

  • 24小时活跃:select hour as x, active_user_count as y, browser_name as s from ... order by browser_name, hour

  • 周活跃趋势:同上结构

  • 使用频率:select browser_name as s, user_count as y, usage_level as x from ...

  • 使用数量分布:select browser_count as name, user_count as value from ...

7.4 样式微调

  • 饼图内外半径、标签显示

  • 折线图系列颜色统一(IE蓝、Chrome红、360绿等)

  • 柱子间距、边距等

7.5 预览与发布

  • 点击“预览”验证数据正确性

  • 点击“发布”生成分享链接(示例链接见原文档)

八、实验结果

成功生成两张数据大屏(市场分析大屏、用户画像大屏),可交互展示浏览器市场格局、用户行为趋势、用户画像分布等核心指标。所有图表基于真实数据动态刷新,支持筛选器(可扩展)。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 1:41:46

GPT-5.5 流体智能与推理稳定性实测

最近在做 GPT-5.5 的可靠性评估&#xff0c;把多次输出结果集中导出做了对比分析。ARC-AGI-2 从 73.3% 跳到 85.0% 这个数字在圈子里传得很广&#xff0c;但 ARC-AGI-3 上 GPT-5.5 和 Claude Opus 4.7 双双不到 1%。通过 kulaai聚合平台集中调用多个模型做横向对比时&#xff0…

作者头像 李华
网站建设 2026/6/9 1:41:31

华三AC对接绿洲平台无线认证,这10个配置细节没注意,难怪认证总失败

华三AC对接绿洲平台无线认证&#xff1a;10个关键配置细节与深度排错指南当华三AC设备与绿洲平台进行无线认证对接时&#xff0c;许多工程师在完成基础配置后仍会遇到各种认证失败问题。这往往不是因为配置步骤错误&#xff0c;而是忽略了那些看似微小却至关重要的细节。本文将…

作者头像 李华
网站建设 2026/6/9 1:40:44

计算机小程序毕设实战-基于SpringBoot智能在线预约挂号系统微信小程序基于springboot+微信小程序的乡镇医院挂号预约系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/6/9 1:39:47

生信小白避坑指南:你的多序列比对结果为啥‘乱七八糟’?可能是这5个输入细节没做好

生物信息学实战&#xff1a;多序列比对输入优化的五大关键策略第一次用Clustal Omega做多序列比对时&#xff0c;我盯着屏幕上那些错位的碱基和碎片化的比对区域&#xff0c;感觉就像在看一幅被雨水打湿的水彩画。这可能是许多生物信息学初学者共同的困惑——为什么教程里那些漂…

作者头像 李华