news 2026/6/26 7:30:14

从 Medallion Architecture 到 AI Native Data Stack:企业数据平台如何从 BI 底座升级为 AI 决策底座

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从 Medallion Architecture 到 AI Native Data Stack:企业数据平台如何从 BI 底座升级为 AI 决策底座

因为 AI 进来之后,企业面对的已经不只是“让更多人看懂数据”。真正摆在眼前的问题是:能不能让系统自己理解业务、调用数据、完成分析,并把结果一路推进到行动层。

这也是这篇文章想讲清楚的一句话:

过去的数据平台,主要服务于人分析(Human Analytics);未来的数据平台,必须服务于 AI 决策(AI Decision)。

这不是报表层的一次小修小补,更像一次“操作系统级”的重构。过去十年,企业数据平台主要在做一件事:从分散走向统一,从数据仓库走向 Lakehouse。未来三到五年,真正重要的变化,是它会继续从数据底座往上长,变成认知底座,再进一步变成决策底座

如果把这件事压缩成一条演进线,大概就是:

BI Era(服务于人) → Lakehouse Era(统一数据) → AI Native Data Stack Era(服务于 AI)


一、为什么 BI 架构开始遇到天花板

先说一个很多企业都很熟悉的现实。

今天不少公司并不缺系统。它们有数据仓库,有数据湖,也可能已经上了 Lakehouse,外面再套一层看起来不差的 BI 平台。但业务部门一旦提出稍微复杂一点的问题,链路往往还是那条老路:

Question → People → SQL → Dashboard → Decision

业务先提问题。分析师理解需求、拆解口径。数据工程师补数、建模、开发报表。最后,业务再基于 dashboard 做判断。

这条链路不是不能跑,而是越往后越贵,越慢,也越难复制。

先是响应速度慢。只要问题不是预先定义好的口径,通常就得跨角色协作。真正卡住企业的,很多时候不是算力,而是沟通成本和翻译成本。

再是人力成本高。不少数据团队把大量时间花在 SQL 搬运、口径解释、报表维护这些重复工作上,真正高杠杆的分析和建模反而被挤压了。

还有一个更隐蔽的问题:知识沉淀不下来。很多分析结论留在人脑里、PPT 里、会议纪要里,没有真正回到系统。下次遇到类似问题,组织还是得再走一遍老流程。

最后是很难规模化。当所有决策都要靠“人”这个中间层来转译,企业的数据能力增长速度,最终就会被组织带宽锁住。

所以 BI 的天花板,不完全是技术问题,更像是交互模式的问题。它默认的是:人去找数据,人去理解数据,人再推动决策。

报表时代,这套模式是成立的。到了 Agent 时代,它就开始显得有点笨了。


二、Medallion Architecture 解决了什么

这里不能因为要讲 AI,就低估 Medallion Architecture 的价值。恰恰相反,没有 Medallion,就谈不上更上层的 AI Native Data Stack。

按照 Databricks 官方定义,Medallion Architecture 是一种分层的数据设计模式,用 Bronze、Silver、Gold 三层,让数据在流动过程中逐步提升质量和结构化程度。[官方]

Databricks 在官方文档里的原话是:

“The goal is to incrementally and progressively improve the structure and quality of data as it flows through each layer of the architecture (from Bronze ⇒ Silver ⇒ Gold layer tables).”

这三层各自做什么,其实已经很清楚:

Bronze:承接原始数据,强调可追溯、少丢失、低假设。

  • Silver:做清洗、校验、规范化和基础建模,形成可信数据层。

  • Gold:沉淀面向业务消费的聚合、主题域模型和指标视图,支撑 BI、分析、机器学习和下游应用。

如果换成企业视角,Medallion 真正解决的是数据资产化。它第一次比较系统地把下面几件事放到一套框架里:

  • 数据统一存储

  • 数据统一治理

  • 数据统一计算

  • 数据统一消费

更重要的是,它把“原始数据”“可信数据”“业务数据”这几层关系拉开了。这样一来,过去数仓和数据集市时代常见的模型混杂、口径漂移、反复搬运,就能大幅缓解。

这一点非常关键。因为 AI 不是从空气里长出来的,它必须站在一个统一、可信、可治理、可计算的数据底座上。从这个意义上讲,Lakehouse 和 Medallion 不是旧时代的遗产,反而是 AI 时代的地基。

但问题也正出在这里。

Gold 层当然很重要,但它主要还是 Human-readable,不是天然的 AI-readable。下一阶段架构要补的,恰恰就是这道断层。


三、为什么 Gold 层不是 AI 的终点

很多团队会有一种直觉:Gold 做得足够好,AI 接进来就行了。

现实没这么简单。

举个常见的问题:

最近 3 个月销售额下降的原因是什么?

一个训练有素的分析师看到这句话,脑子里会立刻补出一堆前提:销售额怎么定义,是否扣除了退款,是按支付时间还是履约时间统计,是看同比还是环比,要不要结合渠道投放、库存、客单价、转化率、新老客结构一起看。

但对 AI 来说,就算 Gold 层已经有一张ads_sales_summary,问题还是一大堆:

  • 销售额到底是什么?

  • 是否包含退款?

  • “最近 3 个月”指的是自然月、滚动 90 天,还是财务月?

  • 先看区域,还是先看渠道?

  • 该关联库存、营销活动、价格变动,还是客服工单?

  • 如果结果异常,是继续下钻,还是直接触发动作?

你会发现,Gold 层给的是高质量数据结果,但不是完整的业务认知上下文。

这也是为什么很多 ChatBI 项目,一开始体验很好,越往深处走越不稳定:SQL 也许能生成,图表也许能画出来,但一到跨指标解释、口径追问、根因定位、策略建议,系统就开始飘。

问题不只是模型够不够强。更常见的情况是:企业并没有把业务语义、规则、知识和经验,以结构化的方式交给 AI。

所以 Gold 不是 AI 的终点。Gold 解决的是“数据可用”,而 AI 决策真正需要的是“业务可理解、规则可推理、动作可执行”。

换句话说,企业真正缺的,不只是更多表,而是一套企业认知系统(Enterprise Cognitive System)


四、AI Native Data Stack 需要在 Gold 之上再加两层

如果用一张更完整的演进图来表示,我更倾向于把企业数据平台从三层扩展成五层,甚至七层。

先看最关键的新增部分:

Data Source → Bronze → Silver → Gold → Semantic Layer → AI Agent Layer

这不是为了把架构图画得更复杂,而是因为到了 Gold 之上,出现了两类 BI 时代并不显性的能力需求:

  1. 企业知识要能被系统化表达

  2. AI 不只回答问题,还要规划、调用和执行

前者对应 Semantic Layer,后者对应 AI Agent Layer。

也可以换一种说法:

  • Lakehouse 解决的是数据统一问题;

  • Semantic Layer 解决的是业务语义统一问题;

  • Agent Layer 解决的是智能执行问题。

三者叠在一起,企业数据平台的角色才会从“数据基础设施”变成“决策基础设施”。


五、Semantic Layer:企业知识的大脑

如果说 Lakehouse 是地基,那 Semantic Layer 更像大脑。

dbt 在官方文档里对 Semantic Layer 的定义很直接:它允许数据团队在现有模型之上统一定义 metrics,并自动处理数据 join,从而减少重复编码。

官方原句是:

“The dbt Semantic Layer eliminates duplicate coding by allowing data teams to define metrics on top of existing models and automatically handling data joins.”

以及:

“By centralizing metric definitions, data teams can ensure consistent self-service access to these metrics in downstream data tools and applications.”

这两句话已经说明了语义层的第一层价值:把口径、指标、维度从 BI 工具里拿出来,回收到统一的数据建模与治理体系中。

但如果站在 AI 时代看,Semantic Layer 的意义还要更大。它不该只是“指标定义中心”,而应该成为企业业务世界的数字孪生

这一层至少要管理几类对象:

1. Business Entities(业务实体)

比如:用户、订单、商品、门店、合同、设备、项目。

这些不是简单的表名,而是企业经营中真正关心的业务对象。

2. Metrics(指标)

比如:GMV、DAU、LTV、ARPU、库存周转天数、毛利率。

指标的关键不只是名字,更是口径、计算方式、适用范围、刷新周期和权限边界。

3. Dimensions(维度)

比如:时间、区域、渠道、城市、客户分层、品类。

维度其实就是分析世界的坐标系。没有统一维度,AI 的分析就很难走出表层问答。

4. Relationships(关系)

用户和订单是什么关系,订单和商品怎么关联,营销活动怎样影响转化,门店和区域如何映射。

AI 想从“查数”走向“解释”,就必须理解这些关系。

5. Business Rules(业务规则)

比如:

  • 销售额 = 支付金额 - 退款金额

  • 活跃用户 = 7 天内登录用户

  • 新客 = 首次完成支付的用户

规则如果不进入系统,AI 的回答就只能停留在模式匹配,谈不上真正可控。

6. Knowledge(知识)

这里包括行业知识、组织经验、分析框架、异常判断习惯,甚至过去分析师沉淀下来的方法论。

这部分在 BI 时代通常散落在人脑里、日报里、PPT 里;到了 AI 时代,它必须逐步结构化,至少要做到可引用、可校验、可继承。

所以 Semantic Layer 的本质,不只是给 SQL 提供一个更友好的入口,而是在企业内部搭一座桥:把底下的数据世界,翻译成上面 AI 能理解的业务世界。

最终形成的,不再只是:

Data → Information

而是:

Data → Information → Knowledge → Reasoning

这一步,决定了 AI 在企业里到底只是一个聊天入口,还是一个真正能工作的系统。


六、AI Agent Layer:企业的数字员工系统

再往上一层,就是 Agent。

这一层最容易被讲空。因为现在市场上很多产品都在讲 Agent,但真正落到企业里,关键不是“会不会多轮对话”,而是:它能不能在受控边界内调用数据、理解语义、完成任务,并把结果继续推进到行动层。

微软在其官方页面里把 AI agents 描述为可以代表个人、团队或组织工作的“虚拟队友”,并强调它们能够响应实时信息、做出决策、减少错误,还能从反馈中学习。

其中有一句话值得留意:

“Enabling smarter decision-making by analyzing large volumes of data in real time, AI agents can surface insights, spot trends, and even predict future outcomes.” [官方,Microsoft]

这句话背后真正说明的是:Agent 在企业里不只是一个信息检索器,它正在往工作流执行体演进。

如果放到数据平台场景里,至少会出现几类很典型的 Agent:

1. ChatBI Agent

负责问数、SQL 生成、指标解释、异常追问、结果可视化。

它替代的是“很多临时分析需求都得先过一遍分析师”的环节。

2. Data Engineer Agent

负责 ETL 生成、任务编排建议、血缘分析、异常排查、数据质量修复。

它替代的不是工程师本身,而是大量重复、低杠杆的工程劳动。

3. Analyst Agent

负责根因分析、洞察归纳、报告输出、经营复盘。

它让“分析”这件事,从一次性产出逐步变成可复用的系统能力。

4. Operation Agent

负责用户运营、活动优化、策略生成、实验建议,甚至把部分动作直接回写到业务系统。

当这些 Agent 真正串起来之后,企业内部的链路会发生一个非常关键的变化:

Question → Agent → Semantic Layer → Gold → Silver → Bronze → Action

这里最值得注意的是最后一步。

在 BI 时代,链路通常停在 Dashboard。

但在 AI Native Data Stack 里,Dashboard 不再是唯一终点,很多时候它甚至只是一个中间产物。更重要的是:Action。

也就是发起策略、调整预算、生成任务、触发工单、修改参数、推进下一步执行。

这才是“服务于 AI 决策”和“服务于人分析”之间真正的分水岭。


七、企业数据平台的角色,已经开始变了

过去大家一提 Data Platform,默认想到的是 Data Infrastructure。

说白了,就是一套围绕存储、计算、调度、治理、建模、服务构成的数据基础设施。

这个理解在 BI 时代没有问题。但在 AI 时代,如果平台还只把自己定义成基础设施,它很快就会退化成一个“被调用的后端能力层”,而不是企业智能化的核心枢纽。

我更倾向于把未来的数据平台拆成三个系统:

1. Data System(数据系统)

负责存储、计算、治理、调度、数据服务。

这是 Lakehouse 最擅长的部分,也是今天大多数厂商竞争最充分的一层。

2. Knowledge System(知识系统)

负责语义、规则、指标、实体、关系、术语和经验沉淀。

这部分决定了企业是不是拥有了一个稳定、统一、可治理的“业务解释层”。

3. Reasoning System(推理系统)

负责规划、分析、决策、执行,以及反馈闭环。

这部分往上接应用,往下接语义和数据,最终让 AI 从“能答”走向“能做”。

这三层叠起来,企业平台的主线就会从过去的:

Data Platform = Data Infrastructure

逐步变成:

Data Platform = AI Infrastructure

再进一步,它甚至会继续演进成:

Data → Knowledge → Reasoning → Action

这里最关键的变化是,平台是否开始承担认知与决策功能。如果答案是肯定的,那它就已经不只是一个传统意义上的数据平台了。


八、未来企业更合理的目标架构

如果把上面的讨论收束成一个更完整的推荐架构,我会倾向于下面这条七层路径:

AI Applications | +------------------------+ | ChatBI | Copilot | Agent | +------------------------+ | AI Agent Layer | Semantic Layer | Gold | Silver | Bronze | Lakehouse Foundation | Data Sources

这个架构的好处在于,它把“统一数据”“统一知识”“统一执行”三件事彻底拆开了。

  • Lakehouse Foundation负责底层数据底座能力;

  • Bronze / Silver / Gold负责数据加工、可信化和业务建模;

  • Semantic Layer负责口径、实体、关系、规则和知识抽象;

  • AI Agent Layer负责调用、规划、分析和执行;

  • AI Applications则是不同业务场景下的交互入口。

这样一来,企业就不会再把 ChatBI、Copilot、Agent 这些上层应用,当成几块零散能力去拼,而是能把它们放进同一个架构故事里理解。


九、云器 Lakehouse,正在完善这个产品升级

1. Lakehouse Foundation

这一层承接的是平台底座能力,比如:

  • 存算分离

  • 开放表格式(如 Iceberg)

  • 通用增量计算

  • 批流一体

  • 湖上加速

这些能力解决的是“数据怎么统一进来、稳定跑起来、成本可控地算起来”。

2. Semantic Layer

这一层更偏向企业业务认知的沉淀,比如:

  • 指标中心

  • 实体中心

  • 业务术语中心

  • 知识中心

它解决的已经不是物理数据处理问题,而是“企业怎样用同一种语言理解自己的业务”。

3. Data Agent

这一层承接的是数据工作自动化与智能化,比如:

  • ETL 自动生成

  • SQL 自动生成

  • 运维自动化

  • 根因分析

它的价值,在于把原来高度依赖人力的分析与工程协作链路尽量压短。[推断]

4. AI Apps

包括:

  • ChatBI

  • AI Copilot

  • 决策 Agent

这是企业最终能感知到的应用层,也是价值最容易被感知的一层。但如果没有前面的 Lakehouse 和 Semantic Layer,这一层很容易停留在 demo 状态。

所以更完整的讲法,不是“我们做了一个 ChatBI”,而是:

Lakehouse 统一数据,Semantic Layer 统一知识,Agent 开始接管分析与决策。

这个叙事,会比单讲某个 Agent 或某个加速能力更完整,也更适合形成系列内容。


十、结尾:AI 时代,企业建设的不再只是数据仓库

BI 时代,企业最重要的数据工程目标,是建设一个稳定的数据仓库,或者更进一步,建设一套统一的 Lakehouse。

到了 AI 时代,这个目标本身已经开始变化。

企业当然还是需要仓库、湖仓、计算引擎、调度系统和治理体系,这些能力都不会消失。问题在于,这些能力本身已经越来越难构成真正的差异化。

真正开始拉开距离的,是企业能不能在数据平台之上,再建出一套可被 AI 使用的企业认知系统。

也就是说,未来企业真正要建设的,可能不再只是:

Data Warehouse

而是:

Enterprise Cognitive System[推断]

如果再往下拆,其实就是三句话:

  • Lakehouse 统一了数据

  • Semantic Layer 统一了知识

  • Agent 开始接管决策。

于是企业平台也会顺着这条链路继续演进:

Data Platform → Knowledge Platform → Decision Platform

我倾向于认为,这会是未来三到五年企业数据平台最重要的一次架构跃迁。

不是因为 BI 不重要了,而是因为 BI 解决的是“让人看见”;下一代平台要解决的,是让 AI 真正理解、推理,并推动业务动作发生。

这两者之间,差的不是一个新功能,而是一整代系统设计方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 7:28:07

关注山地建房难点?重庆大墅聚建筑工艺技术分析

理性看待“排名”,聚焦山地别墅建造的专业适配度在网络检索“重庆涪陵别墅建造公司排名前十”时,需保持审慎态度。目前并无官方权威机构发布此类绝对榜单,各类排名多基于网络热度或营销数据,参考价值有限。选择服务商应核心考察其…

作者头像 李华
网站建设 2026/6/26 7:23:57

收藏!小白程序员快速上手大模型:从入门到精通,附实用技巧

本文探讨了如何利用大模型提升创作效率,避免生成低质量AI内容。文章指出,平台开始规范AI生成内容,识别“AI slop”成为关键。大模型虽强大,但存在幻觉问题,需谨慎使用。建议将AI作为辅助工具,而非替代思考。…

作者头像 李华
网站建设 2026/6/26 7:23:53

上升时间的测量三要素

在精确的时域测量中,上升时间是一个关键参数,尤其对于高速数字信号而言。然而,在示波器上观察到的上升时间并非信号本身的真实上升时间,而是信号源上升时间(被测信号)、探头带宽和示波器带宽这三个要素共同…

作者头像 李华
网站建设 2026/6/26 7:23:34

注册商标R标怎么标注才合规?企业品牌用标必备常识

很多企业在日常品牌宣传、产品包装设计中,都习惯给注册商标标注标识,以此彰显品牌正规性、区分杂牌产品。但绝大多数人都忽略了一个关键问题:注册商标的标注并不是随意添加的,标识位置、标注方式都有明确的法律规范。很多商家仅凭…

作者头像 李华