30.8.14.数据库与数据仓库-编程实验室

在企业信息系统中，数据库（Database）和数据仓库（Data Warehouse, DW）是核心组成部分。它们都处理数据，但设计理念、用途、架构、操作方式和优化目标完全不同。

理解它们的差异，对系统设计、数据分析和商业决策至关重要。

1.数据库（Database）

1.1.定义与核心功能

数据库是一个按照一定的数据模型（通常是关系型或非关系型）存储、管理和查询数据的系统，主要用于日常业务事务处理（OLTP, Online Transaction Processing）。

核心功能包括：

1）数据存储与管理：持久化存储业务数据（如订单、用户信息、库存）。

2）数据查询：提供灵活、快速的查询接口（SQL或NoSQL查询）。

3）事务处理：保证数据一致性、完整性和原子性（ACID原则）。

4）高并发支持：同时处理大量用户的请求而不出现冲突或延迟。

1.2.数据库类型与特点

1）关系型数据库（RDBMS）：数据存储在表格中，有固定模式；支持 SQL 查询；事务强一致。例如：MySQL、PostgreSQL、Oracle，适用于订单系统、库存系统。

2）文档型数据库，存储 JSON 或 BSON 文档，模式灵活。例如：MongoDB，用于动态内容管理、日志存储。

3）键值数据库，存储 key-value 对，访问快速。例如：Redis，用于缓存、会话存储。

4）列存储数据库，数据按列存储，适合聚合计算。例如，HBase，适用于大数据处理场景。

1.3.数据库设计

1）数据库设计注重事务效率与数据完整性。

2）范式设计：消除冗余数据，保持数据一致性。

3）索引优化：加快查询速度。

4）分区分表：提高高并发下的读写性能。

5）事务控制：保证 ACID 原则，避免脏读、丢失更新等问题。

1.4.使用场景

电商网站：下单、支付、库存管理

银行系统：转账、账户更新、贷款审批

企业ERP系统：人事、采购、生产管理

2.数据仓库（Data Warehouse, DW）

2.1.定义与核心功能

数据仓库是为分析和决策支持（OLAP, Online Analytical Processing）而设计的数据系统，它从多个业务数据库、日志系统或外部数据源中抽取数据（来源），经过清洗、整合、汇总后存储，供企业进行复杂查询和数据分析。

核心功能：

1）数据整合：将分散的业务系统数据整合到一个统一的结构中。

2）历史数据存储：保留长期历史数据，支持趋势分析和回溯。

3）多维分析：支持按时间、地区、产品等多维度分析。

4）高性能查询：即便数据量很大，也能快速完成复杂聚合分析。

2.2.数据仓库架构

2.2.1.基本架构

1）数据源层：业务数据库、日志系统、外部数据源。

2）ETL/ELT层：

Extract（抽取）：从各个源系统获取数据

Transform（清洗/转换）：格式统一、数据去重、处理异常值

Load（加载）：将数据加载到数据仓库

3）数据仓库存储层：

采用主题域（Subject-Oriented）设计，如销售、财务、客户

通常使用星型模型或雪花模型建模

4）数据访问与分析层：

BI 工具（Tableau、Power BI）

SQL 查询

高级分析（数据挖掘、机器学习模型）

2.2.2.数据建模

1）星型模型（Star Schema）：

中心是事实表（Fact Table），存储交易、销售、事件等核心指标

周围是维度表（Dimension Table），存储描述性属性，如时间、产品、客户

2）雪花模型（Snowflake Schema）：

维度表进一步规范化，减少冗余，提高存储效率

2.3.数据仓库特点

1）面向主题：按业务主题组织数据。

2）历史数据：支持长时间序列分析。

3）低更新高查询：数据定期批量更新。

4）复杂查询优化：适合聚合、统计和报表分析。

2.4.使用场景

1）销售数据分析：按月、季度、地区分析销售趋势。

2）客户行为分析：复购率、客户流失预测。

3）财务分析：预算执行情况、利润分析。

4）数据挖掘：推荐系统、市场预测、风险评估。

3.类比与理解

可以用公司运作来类比：

1）数据库：前台接待员，实时处理客户请求，保证操作的正确性和及时性。

2）数据仓库：战略分析部门，整合所有部门数据，分析趋势、辅助决策。

4.总结与最佳实践

1）数据库是企业的操作核心，强调事务处理和数据一致性。

2）数据仓库是企业的数据分析核心，强调数据整合和历史分析能力。

企业实践中：

1）将业务数据库作为数据源。

2）通过 ETL 将数据导入数据仓库。

3）利用BI工具进行分析与决策。

数据库保证“现在的运作”，数据仓库指导“未来的决策”。两者相辅相成，共同支撑企业信息化与智能化发展。

5.使用实例

数据仓库实例：电商销售分析数据仓库

假设一家电商公司每天产生大量订单、用户行为和库存数据，如果直接用业务数据库分析数据，不仅效率低，而且可能影响业务系统性能。于是，他们会建立一个数据仓库来做分析与报表。

5.1.数据仓库结构示例

（1）事实表（Fact Table）

存储核心的交易或事件数据，通常包含度量指标（Measures）：

列名类型说明

order_id INT 订单编号

user_id INT 用户编号

product_id INT 商品编号

order_date DATE 下单日期

quantity INT 商品数量

revenue DECIMAL 销售额

是分析销售额、订单量等指标的核心表。

（2）维度表（Dimension Table）

储描述性属性，用于分析的“维度”：

用户维度表（Dim_User）

列名类型说明

user_id INT 用户编号

name VARCHAR 用户姓名

gender CHAR 性别

city VARCHAR 所在城市

register_date DATE 注册时间

商品维度表（Dim_Product）

列名类型说明

product_id INT 商品编号

name VARCHAR 商品名称

category VARCHAR 商品类别

price DECIMAL 单价

时间维度表（Dim_Date）

列名类型说明

date_id DATE 日期

year INT 年份

month INT 月份

day INT 日

weekday VARCHAR 星期几

5.2.数据仓库使用方式

1）报表分析

每月销售额、各类商品销量、用户活跃度等。

BI 工具如 Tableau 或 Power BI 直接连接数据仓库生成可视化报表。

2）趋势与预测

分析用户复购率、热销商品趋势、库存需求预测。

3）多维分析（OLAP）

按时间、地区、商品类别分析销售情况。

例如：查询“2025 年第一季度北京地区电子产品的销售额”。

5.3.典型技术栈

层	技术
数据仓库	Amazon Redshift、Snowflake、Google BigQuery
ETL	Apache Airflow、Talend、Informatica
BI/分析	Tableau、Power BI、Looker
数据湖（可选）	S3、HDFS、Delta Lake（存原始数据

30.8.14.数据库与数据仓库

1.数据库（Database）

1.1.定义与核心功能

1.2.数据库类型与特点

1.3.数据库设计

1.4.使用场景

2.数据仓库（Data Warehouse, DW）

2.1.定义与核心功能

2.2.数据仓库架构

2.2.1.基本架构

2.2.2.数据建模

2.3.数据仓库特点

2.4.使用场景

3.类比与理解

4.总结与最佳实践

5.使用实例

5.1.数据仓库结构示例

5.2.数据仓库使用方式

5.3.典型技术栈

基于大数据旅游数据分析与推荐系统的设计与实现（毕业设计项目源码+文档）

深入探索C++数据结构与算法精要

Dify混合检索配置避坑指南，90%团队忽略的3个关键参数

内网穿透的应用-本地云盘好用但难远程？Cloudreve+cpolar 轻松解决

R3LIVE终极指南：从零开始掌握实时SLAM与三维重建

【开题答辩全过程】以高校职称评审投票系统设计与实现为例，包含答辩的问题和答案

1.数据库（Database）

1.1.定义与核心功能

1.2.数据库类型与特点

1.3.数据库设计

1.4.使用场景

2.数据仓库（Data Warehouse, DW）

2.1.定义与核心功能

2.2.数据仓库架构

2.2.1.基本架构

2.2.2.数据建模

2.3.数据仓库特点

2.4.使用场景

3.类比与理解

4.总结与最佳实践

5.使用实例

5.1.数据仓库结构示例

5.2.数据仓库使用方式

5.3.典型技术栈

基于大数据旅游数据分析与推荐系统的设计与实现（毕业设计项目源码+文档）

深入探索C++数据结构与算法精要

Dify混合检索配置避坑指南，90%团队忽略的3个关键参数

内网穿透的应用-本地云盘好用但难远程？Cloudreve+cpolar 轻松解决

R3LIVE终极指南：从零开始掌握实时SLAM与三维重建

【开题答辩全过程】以 高校职称评审投票系统设计与实现为例，包含答辩的问题和答案

【开题答辩全过程】以高校职称评审投票系统设计与实现为例，包含答辩的问题和答案