从 Medallion Architecture 到 AI Native Data Stack：企业数据平台如何从 BI 底座升级为 AI 决策底座-编程实验室

因为 AI 进来之后，企业面对的已经不只是“让更多人看懂数据”。真正摆在眼前的问题是：能不能让系统自己理解业务、调用数据、完成分析，并把结果一路推进到行动层。

这也是这篇文章想讲清楚的一句话：

过去的数据平台，主要服务于人分析（Human Analytics）；未来的数据平台，必须服务于 AI 决策（AI Decision）。

这不是报表层的一次小修小补，更像一次“操作系统级”的重构。过去十年，企业数据平台主要在做一件事：从分散走向统一，从数据仓库走向 Lakehouse。未来三到五年，真正重要的变化，是它会继续从数据底座往上长，变成认知底座，再进一步变成决策底座。

如果把这件事压缩成一条演进线，大概就是：

BI Era（服务于人） → Lakehouse Era（统一数据） → AI Native Data Stack Era（服务于 AI）

一、为什么 BI 架构开始遇到天花板

先说一个很多企业都很熟悉的现实。

今天不少公司并不缺系统。它们有数据仓库，有数据湖，也可能已经上了 Lakehouse，外面再套一层看起来不差的 BI 平台。但业务部门一旦提出稍微复杂一点的问题，链路往往还是那条老路：

Question → People → SQL → Dashboard → Decision

业务先提问题。分析师理解需求、拆解口径。数据工程师补数、建模、开发报表。最后，业务再基于 dashboard 做判断。

这条链路不是不能跑，而是越往后越贵，越慢，也越难复制。

先是响应速度慢。只要问题不是预先定义好的口径，通常就得跨角色协作。真正卡住企业的，很多时候不是算力，而是沟通成本和翻译成本。

再是人力成本高。不少数据团队把大量时间花在 SQL 搬运、口径解释、报表维护这些重复工作上，真正高杠杆的分析和建模反而被挤压了。

还有一个更隐蔽的问题：知识沉淀不下来。很多分析结论留在人脑里、PPT 里、会议纪要里，没有真正回到系统。下次遇到类似问题，组织还是得再走一遍老流程。

最后是很难规模化。当所有决策都要靠“人”这个中间层来转译，企业的数据能力增长速度，最终就会被组织带宽锁住。

所以 BI 的天花板，不完全是技术问题，更像是交互模式的问题。它默认的是：人去找数据，人去理解数据，人再推动决策。

报表时代，这套模式是成立的。到了 Agent 时代，它就开始显得有点笨了。

二、Medallion Architecture 解决了什么

这里不能因为要讲 AI，就低估 Medallion Architecture 的价值。恰恰相反，没有 Medallion，就谈不上更上层的 AI Native Data Stack。

按照 Databricks 官方定义，Medallion Architecture 是一种分层的数据设计模式，用 Bronze、Silver、Gold 三层，让数据在流动过程中逐步提升质量和结构化程度。[官方]

Databricks 在官方文档里的原话是：

“The goal is to incrementally and progressively improve the structure and quality of data as it flows through each layer of the architecture (from Bronze ⇒ Silver ⇒ Gold layer tables).”

这三层各自做什么，其实已经很清楚：

Bronze：承接原始数据，强调可追溯、少丢失、低假设。

Silver：做清洗、校验、规范化和基础建模，形成可信数据层。
Gold：沉淀面向业务消费的聚合、主题域模型和指标视图，支撑 BI、分析、机器学习和下游应用。

如果换成企业视角，Medallion 真正解决的是数据资产化。它第一次比较系统地把下面几件事放到一套框架里：

数据统一存储
数据统一治理
数据统一计算
数据统一消费

更重要的是，它把“原始数据”“可信数据”“业务数据”这几层关系拉开了。这样一来，过去数仓和数据集市时代常见的模型混杂、口径漂移、反复搬运，就能大幅缓解。

这一点非常关键。因为 AI 不是从空气里长出来的，它必须站在一个统一、可信、可治理、可计算的数据底座上。从这个意义上讲，Lakehouse 和 Medallion 不是旧时代的遗产，反而是 AI 时代的地基。

但问题也正出在这里。

Gold 层当然很重要，但它主要还是 Human-readable，不是天然的 AI-readable。下一阶段架构要补的，恰恰就是这道断层。

三、为什么 Gold 层不是 AI 的终点

很多团队会有一种直觉：Gold 做得足够好，AI 接进来就行了。

现实没这么简单。

举个常见的问题：

最近 3 个月销售额下降的原因是什么？

一个训练有素的分析师看到这句话，脑子里会立刻补出一堆前提：销售额怎么定义，是否扣除了退款，是按支付时间还是履约时间统计，是看同比还是环比，要不要结合渠道投放、库存、客单价、转化率、新老客结构一起看。

但对 AI 来说，就算 Gold 层已经有一张ads_sales_summary，问题还是一大堆：

销售额到底是什么？
是否包含退款？
“最近 3 个月”指的是自然月、滚动 90 天，还是财务月？
先看区域，还是先看渠道？
该关联库存、营销活动、价格变动，还是客服工单？
如果结果异常，是继续下钻，还是直接触发动作？

你会发现，Gold 层给的是高质量数据结果，但不是完整的业务认知上下文。

这也是为什么很多 ChatBI 项目，一开始体验很好，越往深处走越不稳定：SQL 也许能生成，图表也许能画出来，但一到跨指标解释、口径追问、根因定位、策略建议，系统就开始飘。

问题不只是模型够不够强。更常见的情况是：企业并没有把业务语义、规则、知识和经验，以结构化的方式交给 AI。

所以 Gold 不是 AI 的终点。Gold 解决的是“数据可用”，而 AI 决策真正需要的是“业务可理解、规则可推理、动作可执行”。

换句话说，企业真正缺的，不只是更多表，而是一套企业认知系统（Enterprise Cognitive System）

四、AI Native Data Stack 需要在 Gold 之上再加两层

如果用一张更完整的演进图来表示，我更倾向于把企业数据平台从三层扩展成五层，甚至七层。

先看最关键的新增部分：

Data Source → Bronze → Silver → Gold → Semantic Layer → AI Agent Layer

这不是为了把架构图画得更复杂，而是因为到了 Gold 之上，出现了两类 BI 时代并不显性的能力需求：

企业知识要能被系统化表达
AI 不只回答问题，还要规划、调用和执行

前者对应 Semantic Layer，后者对应 AI Agent Layer。

也可以换一种说法：

Lakehouse 解决的是数据统一问题；
Semantic Layer 解决的是业务语义统一问题；
Agent Layer 解决的是智能执行问题。

三者叠在一起，企业数据平台的角色才会从“数据基础设施”变成“决策基础设施”。

五、Semantic Layer：企业知识的大脑

如果说 Lakehouse 是地基，那 Semantic Layer 更像大脑。

dbt 在官方文档里对 Semantic Layer 的定义很直接：它允许数据团队在现有模型之上统一定义 metrics，并自动处理数据 join，从而减少重复编码。

官方原句是：

“The dbt Semantic Layer eliminates duplicate coding by allowing data teams to define metrics on top of existing models and automatically handling data joins.”

以及：

“By centralizing metric definitions, data teams can ensure consistent self-service access to these metrics in downstream data tools and applications.”

这两句话已经说明了语义层的第一层价值：把口径、指标、维度从 BI 工具里拿出来，回收到统一的数据建模与治理体系中。

但如果站在 AI 时代看，Semantic Layer 的意义还要更大。它不该只是“指标定义中心”，而应该成为企业业务世界的数字孪生。

这一层至少要管理几类对象：

1. Business Entities（业务实体）

比如：用户、订单、商品、门店、合同、设备、项目。

这些不是简单的表名，而是企业经营中真正关心的业务对象。

2. Metrics（指标）

比如：GMV、DAU、LTV、ARPU、库存周转天数、毛利率。

指标的关键不只是名字，更是口径、计算方式、适用范围、刷新周期和权限边界。

3. Dimensions（维度）

比如：时间、区域、渠道、城市、客户分层、品类。

维度其实就是分析世界的坐标系。没有统一维度，AI 的分析就很难走出表层问答。

4. Relationships（关系）

用户和订单是什么关系，订单和商品怎么关联，营销活动怎样影响转化，门店和区域如何映射。

AI 想从“查数”走向“解释”，就必须理解这些关系。

5. Business Rules（业务规则）

比如：

销售额 = 支付金额 - 退款金额
活跃用户 = 7 天内登录用户
新客 = 首次完成支付的用户

规则如果不进入系统，AI 的回答就只能停留在模式匹配，谈不上真正可控。

6. Knowledge（知识）

这里包括行业知识、组织经验、分析框架、异常判断习惯，甚至过去分析师沉淀下来的方法论。

这部分在 BI 时代通常散落在人脑里、日报里、PPT 里；到了 AI 时代，它必须逐步结构化，至少要做到可引用、可校验、可继承。

所以 Semantic Layer 的本质，不只是给 SQL 提供一个更友好的入口，而是在企业内部搭一座桥：把底下的数据世界，翻译成上面 AI 能理解的业务世界。

最终形成的，不再只是：

Data → Information

而是：

Data → Information → Knowledge → Reasoning

这一步，决定了 AI 在企业里到底只是一个聊天入口，还是一个真正能工作的系统。

六、AI Agent Layer：企业的数字员工系统

再往上一层，就是 Agent。

这一层最容易被讲空。因为现在市场上很多产品都在讲 Agent，但真正落到企业里，关键不是“会不会多轮对话”，而是：它能不能在受控边界内调用数据、理解语义、完成任务，并把结果继续推进到行动层。

微软在其官方页面里把 AI agents 描述为可以代表个人、团队或组织工作的“虚拟队友”，并强调它们能够响应实时信息、做出决策、减少错误，还能从反馈中学习。

其中有一句话值得留意：

“Enabling smarter decision-making by analyzing large volumes of data in real time, AI agents can surface insights, spot trends, and even predict future outcomes.” [官方，Microsoft]

这句话背后真正说明的是：Agent 在企业里不只是一个信息检索器，它正在往工作流执行体演进。

如果放到数据平台场景里，至少会出现几类很典型的 Agent：

1. ChatBI Agent

负责问数、SQL 生成、指标解释、异常追问、结果可视化。

它替代的是“很多临时分析需求都得先过一遍分析师”的环节。

2. Data Engineer Agent

负责 ETL 生成、任务编排建议、血缘分析、异常排查、数据质量修复。

它替代的不是工程师本身，而是大量重复、低杠杆的工程劳动。

3. Analyst Agent

负责根因分析、洞察归纳、报告输出、经营复盘。

它让“分析”这件事，从一次性产出逐步变成可复用的系统能力。

4. Operation Agent

负责用户运营、活动优化、策略生成、实验建议，甚至把部分动作直接回写到业务系统。

当这些 Agent 真正串起来之后，企业内部的链路会发生一个非常关键的变化：

Question → Agent → Semantic Layer → Gold → Silver → Bronze → Action

这里最值得注意的是最后一步。

在 BI 时代，链路通常停在 Dashboard。

但在 AI Native Data Stack 里，Dashboard 不再是唯一终点，很多时候它甚至只是一个中间产物。更重要的是：Action。

也就是发起策略、调整预算、生成任务、触发工单、修改参数、推进下一步执行。

这才是“服务于 AI 决策”和“服务于人分析”之间真正的分水岭。

七、企业数据平台的角色，已经开始变了

过去大家一提 Data Platform，默认想到的是 Data Infrastructure。

说白了，就是一套围绕存储、计算、调度、治理、建模、服务构成的数据基础设施。

这个理解在 BI 时代没有问题。但在 AI 时代，如果平台还只把自己定义成基础设施，它很快就会退化成一个“被调用的后端能力层”，而不是企业智能化的核心枢纽。

我更倾向于把未来的数据平台拆成三个系统：

1. Data System（数据系统）

负责存储、计算、治理、调度、数据服务。

这是 Lakehouse 最擅长的部分，也是今天大多数厂商竞争最充分的一层。

2. Knowledge System（知识系统）

负责语义、规则、指标、实体、关系、术语和经验沉淀。

这部分决定了企业是不是拥有了一个稳定、统一、可治理的“业务解释层”。

3. Reasoning System（推理系统）

负责规划、分析、决策、执行，以及反馈闭环。

这部分往上接应用，往下接语义和数据，最终让 AI 从“能答”走向“能做”。

这三层叠起来，企业平台的主线就会从过去的：

Data Platform = Data Infrastructure

逐步变成：

Data Platform = AI Infrastructure

再进一步，它甚至会继续演进成：

Data → Knowledge → Reasoning → Action

这里最关键的变化是，平台是否开始承担认知与决策功能。如果答案是肯定的，那它就已经不只是一个传统意义上的数据平台了。

八、未来企业更合理的目标架构

如果把上面的讨论收束成一个更完整的推荐架构，我会倾向于下面这条七层路径：

AI Applications | +------------------------+ | ChatBI | Copilot | Agent | +------------------------+ | AI Agent Layer | Semantic Layer | Gold | Silver | Bronze | Lakehouse Foundation | Data Sources

这个架构的好处在于，它把“统一数据”“统一知识”“统一执行”三件事彻底拆开了。

Lakehouse Foundation负责底层数据底座能力；
Bronze / Silver / Gold负责数据加工、可信化和业务建模；
Semantic Layer负责口径、实体、关系、规则和知识抽象；
AI Agent Layer负责调用、规划、分析和执行；
AI Applications则是不同业务场景下的交互入口。

这样一来，企业就不会再把 ChatBI、Copilot、Agent 这些上层应用，当成几块零散能力去拼，而是能把它们放进同一个架构故事里理解。

九、云器 Lakehouse，正在完善这个产品升级

1. Lakehouse Foundation

这一层承接的是平台底座能力，比如：

存算分离
开放表格式（如 Iceberg）
通用增量计算
批流一体
湖上加速

这些能力解决的是“数据怎么统一进来、稳定跑起来、成本可控地算起来”。

2. Semantic Layer

这一层更偏向企业业务认知的沉淀，比如：

指标中心
实体中心
业务术语中心
知识中心

它解决的已经不是物理数据处理问题，而是“企业怎样用同一种语言理解自己的业务”。

3. Data Agent

这一层承接的是数据工作自动化与智能化，比如：

ETL 自动生成
SQL 自动生成
运维自动化
根因分析

它的价值，在于把原来高度依赖人力的分析与工程协作链路尽量压短。[推断]

4. AI Apps

包括：

ChatBI
AI Copilot
决策 Agent

这是企业最终能感知到的应用层，也是价值最容易被感知的一层。但如果没有前面的 Lakehouse 和 Semantic Layer，这一层很容易停留在 demo 状态。

所以更完整的讲法，不是“我们做了一个 ChatBI”，而是：

Lakehouse 统一数据，Semantic Layer 统一知识，Agent 开始接管分析与决策。

这个叙事，会比单讲某个 Agent 或某个加速能力更完整，也更适合形成系列内容。

十、结尾：AI 时代，企业建设的不再只是数据仓库

BI 时代，企业最重要的数据工程目标，是建设一个稳定的数据仓库，或者更进一步，建设一套统一的 Lakehouse。

到了 AI 时代，这个目标本身已经开始变化。

企业当然还是需要仓库、湖仓、计算引擎、调度系统和治理体系，这些能力都不会消失。问题在于，这些能力本身已经越来越难构成真正的差异化。

真正开始拉开距离的，是企业能不能在数据平台之上，再建出一套可被 AI 使用的企业认知系统。

也就是说，未来企业真正要建设的，可能不再只是：

Data Warehouse

而是：

Enterprise Cognitive System[推断]

如果再往下拆，其实就是三句话：

Lakehouse 统一了数据；
Semantic Layer 统一了知识；
Agent 开始接管决策。

于是企业平台也会顺着这条链路继续演进：

Data Platform → Knowledge Platform → Decision Platform

我倾向于认为，这会是未来三到五年企业数据平台最重要的一次架构跃迁。

不是因为 BI 不重要了，而是因为 BI 解决的是“让人看见”；下一代平台要解决的，是让 AI 真正理解、推理，并推动业务动作发生。

这两者之间，差的不是一个新功能，而是一整代系统设计方法。

从 Medallion Architecture 到 AI Native Data Stack：企业数据平台如何从 BI 底座升级为 AI 决策底座

一、为什么 BI 架构开始遇到天花板

二、Medallion Architecture 解决了什么

三、为什么 Gold 层不是 AI 的终点

四、AI Native Data Stack 需要在 Gold 之上再加两层

五、Semantic Layer：企业知识的大脑

1. Business Entities（业务实体）

2. Metrics（指标）

3. Dimensions（维度）

4. Relationships（关系）

5. Business Rules（业务规则）

6. Knowledge（知识）

六、AI Agent Layer：企业的数字员工系统

1. ChatBI Agent

2. Data Engineer Agent

3. Analyst Agent

4. Operation Agent

七、企业数据平台的角色，已经开始变了

1. Data System（数据系统）

2. Knowledge System（知识系统）

3. Reasoning System（推理系统）

八、未来企业更合理的目标架构

九、云器 Lakehouse，正在完善这个产品升级

1. Lakehouse Foundation

2. Semantic Layer

3. Data Agent

4. AI Apps

十、结尾：AI 时代，企业建设的不再只是数据仓库

关注山地建房难点？重庆大墅聚建筑工艺技术分析

《Agent开发工程师成长指南》- 第1章第4节：Agent开发工程师到底在做什么？揭秘大厂真实工作内容

如何在5分钟内为Honey Select 2完成完整汉化与去码：终极配置指南

收藏！小白程序员快速上手大模型：从入门到精通，附实用技巧

上升时间的测量三要素

注册商标R标怎么标注才合规?企业品牌用标必备常识

一、为什么 BI 架构开始遇到天花板

二、Medallion Architecture 解决了什么

三、为什么 Gold 层不是 AI 的终点

四、AI Native Data Stack 需要在 Gold 之上再加两层

五、Semantic Layer：企业知识的大脑

1. Business Entities（业务实体）

2. Metrics（指标）

3. Dimensions（维度）

4. Relationships（关系）

5. Business Rules（业务规则）

6. Knowledge（知识）

六、AI Agent Layer：企业的数字员工系统

1. ChatBI Agent

2. Data Engineer Agent

3. Analyst Agent

4. Operation Agent

七、企业数据平台的角色，已经开始变了

1. Data System（数据系统）

2. Knowledge System（知识系统）

3. Reasoning System（推理系统）

八、未来企业更合理的目标架构

九、云器 Lakehouse，正在完善这个产品升级

1. Lakehouse Foundation

2. Semantic Layer

3. Data Agent

4. AI Apps

十、结尾：AI 时代，企业建设的不再只是数据仓库

关注山地建房难点？重庆大墅聚建筑工艺技术分析

《Agent开发工程师成长指南》- 第1章 第4节：Agent开发工程师到底在做什么？揭秘大厂真实工作内容

如何在5分钟内为Honey Select 2完成完整汉化与去码：终极配置指南

收藏！小白程序员快速上手大模型：从入门到精通，附实用技巧

上升时间的测量三要素

注册商标R标怎么标注才合规?企业品牌用标必备常识

《Agent开发工程师成长指南》- 第1章第4节：Agent开发工程师到底在做什么？揭秘大厂真实工作内容