因为 AI 进来之后,企业面对的已经不只是“让更多人看懂数据”。真正摆在眼前的问题是:能不能让系统自己理解业务、调用数据、完成分析,并把结果一路推进到行动层。
这也是这篇文章想讲清楚的一句话:
过去的数据平台,主要服务于人分析(Human Analytics);未来的数据平台,必须服务于 AI 决策(AI Decision)。
这不是报表层的一次小修小补,更像一次“操作系统级”的重构。过去十年,企业数据平台主要在做一件事:从分散走向统一,从数据仓库走向 Lakehouse。未来三到五年,真正重要的变化,是它会继续从数据底座往上长,变成认知底座,再进一步变成决策底座。
如果把这件事压缩成一条演进线,大概就是:
BI Era(服务于人) → Lakehouse Era(统一数据) → AI Native Data Stack Era(服务于 AI)
一、为什么 BI 架构开始遇到天花板
先说一个很多企业都很熟悉的现实。
今天不少公司并不缺系统。它们有数据仓库,有数据湖,也可能已经上了 Lakehouse,外面再套一层看起来不差的 BI 平台。但业务部门一旦提出稍微复杂一点的问题,链路往往还是那条老路:
Question → People → SQL → Dashboard → Decision
业务先提问题。分析师理解需求、拆解口径。数据工程师补数、建模、开发报表。最后,业务再基于 dashboard 做判断。
这条链路不是不能跑,而是越往后越贵,越慢,也越难复制。
先是响应速度慢。只要问题不是预先定义好的口径,通常就得跨角色协作。真正卡住企业的,很多时候不是算力,而是沟通成本和翻译成本。
再是人力成本高。不少数据团队把大量时间花在 SQL 搬运、口径解释、报表维护这些重复工作上,真正高杠杆的分析和建模反而被挤压了。
还有一个更隐蔽的问题:知识沉淀不下来。很多分析结论留在人脑里、PPT 里、会议纪要里,没有真正回到系统。下次遇到类似问题,组织还是得再走一遍老流程。
最后是很难规模化。当所有决策都要靠“人”这个中间层来转译,企业的数据能力增长速度,最终就会被组织带宽锁住。
所以 BI 的天花板,不完全是技术问题,更像是交互模式的问题。它默认的是:人去找数据,人去理解数据,人再推动决策。
报表时代,这套模式是成立的。到了 Agent 时代,它就开始显得有点笨了。
二、Medallion Architecture 解决了什么
这里不能因为要讲 AI,就低估 Medallion Architecture 的价值。恰恰相反,没有 Medallion,就谈不上更上层的 AI Native Data Stack。
按照 Databricks 官方定义,Medallion Architecture 是一种分层的数据设计模式,用 Bronze、Silver、Gold 三层,让数据在流动过程中逐步提升质量和结构化程度。[官方]
Databricks 在官方文档里的原话是:
“The goal is to incrementally and progressively improve the structure and quality of data as it flows through each layer of the architecture (from Bronze ⇒ Silver ⇒ Gold layer tables).”
这三层各自做什么,其实已经很清楚:
Bronze:承接原始数据,强调可追溯、少丢失、低假设。
Silver:做清洗、校验、规范化和基础建模,形成可信数据层。
Gold:沉淀面向业务消费的聚合、主题域模型和指标视图,支撑 BI、分析、机器学习和下游应用。
如果换成企业视角,Medallion 真正解决的是数据资产化。它第一次比较系统地把下面几件事放到一套框架里:
数据统一存储
数据统一治理
数据统一计算
数据统一消费
更重要的是,它把“原始数据”“可信数据”“业务数据”这几层关系拉开了。这样一来,过去数仓和数据集市时代常见的模型混杂、口径漂移、反复搬运,就能大幅缓解。
这一点非常关键。因为 AI 不是从空气里长出来的,它必须站在一个统一、可信、可治理、可计算的数据底座上。从这个意义上讲,Lakehouse 和 Medallion 不是旧时代的遗产,反而是 AI 时代的地基。
但问题也正出在这里。
Gold 层当然很重要,但它主要还是 Human-readable,不是天然的 AI-readable。下一阶段架构要补的,恰恰就是这道断层。
三、为什么 Gold 层不是 AI 的终点
很多团队会有一种直觉:Gold 做得足够好,AI 接进来就行了。
现实没这么简单。
举个常见的问题:
最近 3 个月销售额下降的原因是什么?
一个训练有素的分析师看到这句话,脑子里会立刻补出一堆前提:销售额怎么定义,是否扣除了退款,是按支付时间还是履约时间统计,是看同比还是环比,要不要结合渠道投放、库存、客单价、转化率、新老客结构一起看。
但对 AI 来说,就算 Gold 层已经有一张ads_sales_summary,问题还是一大堆:
销售额到底是什么?
是否包含退款?
“最近 3 个月”指的是自然月、滚动 90 天,还是财务月?
先看区域,还是先看渠道?
该关联库存、营销活动、价格变动,还是客服工单?
如果结果异常,是继续下钻,还是直接触发动作?
你会发现,Gold 层给的是高质量数据结果,但不是完整的业务认知上下文。
这也是为什么很多 ChatBI 项目,一开始体验很好,越往深处走越不稳定:SQL 也许能生成,图表也许能画出来,但一到跨指标解释、口径追问、根因定位、策略建议,系统就开始飘。
问题不只是模型够不够强。更常见的情况是:企业并没有把业务语义、规则、知识和经验,以结构化的方式交给 AI。
所以 Gold 不是 AI 的终点。Gold 解决的是“数据可用”,而 AI 决策真正需要的是“业务可理解、规则可推理、动作可执行”。
换句话说,企业真正缺的,不只是更多表,而是一套企业认知系统(Enterprise Cognitive System)
四、AI Native Data Stack 需要在 Gold 之上再加两层
如果用一张更完整的演进图来表示,我更倾向于把企业数据平台从三层扩展成五层,甚至七层。
先看最关键的新增部分:
Data Source → Bronze → Silver → Gold → Semantic Layer → AI Agent Layer
这不是为了把架构图画得更复杂,而是因为到了 Gold 之上,出现了两类 BI 时代并不显性的能力需求:
企业知识要能被系统化表达
AI 不只回答问题,还要规划、调用和执行
前者对应 Semantic Layer,后者对应 AI Agent Layer。
也可以换一种说法:
Lakehouse 解决的是数据统一问题;
Semantic Layer 解决的是业务语义统一问题;
Agent Layer 解决的是智能执行问题。
三者叠在一起,企业数据平台的角色才会从“数据基础设施”变成“决策基础设施”。
五、Semantic Layer:企业知识的大脑
如果说 Lakehouse 是地基,那 Semantic Layer 更像大脑。
dbt 在官方文档里对 Semantic Layer 的定义很直接:它允许数据团队在现有模型之上统一定义 metrics,并自动处理数据 join,从而减少重复编码。
官方原句是:
“The dbt Semantic Layer eliminates duplicate coding by allowing data teams to define metrics on top of existing models and automatically handling data joins.”
以及:
“By centralizing metric definitions, data teams can ensure consistent self-service access to these metrics in downstream data tools and applications.”
这两句话已经说明了语义层的第一层价值:把口径、指标、维度从 BI 工具里拿出来,回收到统一的数据建模与治理体系中。
但如果站在 AI 时代看,Semantic Layer 的意义还要更大。它不该只是“指标定义中心”,而应该成为企业业务世界的数字孪生。
这一层至少要管理几类对象:
1. Business Entities(业务实体)
比如:用户、订单、商品、门店、合同、设备、项目。
这些不是简单的表名,而是企业经营中真正关心的业务对象。
2. Metrics(指标)
比如:GMV、DAU、LTV、ARPU、库存周转天数、毛利率。
指标的关键不只是名字,更是口径、计算方式、适用范围、刷新周期和权限边界。
3. Dimensions(维度)
比如:时间、区域、渠道、城市、客户分层、品类。
维度其实就是分析世界的坐标系。没有统一维度,AI 的分析就很难走出表层问答。
4. Relationships(关系)
用户和订单是什么关系,订单和商品怎么关联,营销活动怎样影响转化,门店和区域如何映射。
AI 想从“查数”走向“解释”,就必须理解这些关系。
5. Business Rules(业务规则)
比如:
销售额 = 支付金额 - 退款金额
活跃用户 = 7 天内登录用户
新客 = 首次完成支付的用户
规则如果不进入系统,AI 的回答就只能停留在模式匹配,谈不上真正可控。
6. Knowledge(知识)
这里包括行业知识、组织经验、分析框架、异常判断习惯,甚至过去分析师沉淀下来的方法论。
这部分在 BI 时代通常散落在人脑里、日报里、PPT 里;到了 AI 时代,它必须逐步结构化,至少要做到可引用、可校验、可继承。
所以 Semantic Layer 的本质,不只是给 SQL 提供一个更友好的入口,而是在企业内部搭一座桥:把底下的数据世界,翻译成上面 AI 能理解的业务世界。
最终形成的,不再只是:
Data → Information
而是:
Data → Information → Knowledge → Reasoning
这一步,决定了 AI 在企业里到底只是一个聊天入口,还是一个真正能工作的系统。
六、AI Agent Layer:企业的数字员工系统
再往上一层,就是 Agent。
这一层最容易被讲空。因为现在市场上很多产品都在讲 Agent,但真正落到企业里,关键不是“会不会多轮对话”,而是:它能不能在受控边界内调用数据、理解语义、完成任务,并把结果继续推进到行动层。
微软在其官方页面里把 AI agents 描述为可以代表个人、团队或组织工作的“虚拟队友”,并强调它们能够响应实时信息、做出决策、减少错误,还能从反馈中学习。
其中有一句话值得留意:
“Enabling smarter decision-making by analyzing large volumes of data in real time, AI agents can surface insights, spot trends, and even predict future outcomes.” [官方,Microsoft]
这句话背后真正说明的是:Agent 在企业里不只是一个信息检索器,它正在往工作流执行体演进。
如果放到数据平台场景里,至少会出现几类很典型的 Agent:
1. ChatBI Agent
负责问数、SQL 生成、指标解释、异常追问、结果可视化。
它替代的是“很多临时分析需求都得先过一遍分析师”的环节。
2. Data Engineer Agent
负责 ETL 生成、任务编排建议、血缘分析、异常排查、数据质量修复。
它替代的不是工程师本身,而是大量重复、低杠杆的工程劳动。
3. Analyst Agent
负责根因分析、洞察归纳、报告输出、经营复盘。
它让“分析”这件事,从一次性产出逐步变成可复用的系统能力。
4. Operation Agent
负责用户运营、活动优化、策略生成、实验建议,甚至把部分动作直接回写到业务系统。
当这些 Agent 真正串起来之后,企业内部的链路会发生一个非常关键的变化:
Question → Agent → Semantic Layer → Gold → Silver → Bronze → Action
这里最值得注意的是最后一步。
在 BI 时代,链路通常停在 Dashboard。
但在 AI Native Data Stack 里,Dashboard 不再是唯一终点,很多时候它甚至只是一个中间产物。更重要的是:Action。
也就是发起策略、调整预算、生成任务、触发工单、修改参数、推进下一步执行。
这才是“服务于 AI 决策”和“服务于人分析”之间真正的分水岭。
七、企业数据平台的角色,已经开始变了
过去大家一提 Data Platform,默认想到的是 Data Infrastructure。
说白了,就是一套围绕存储、计算、调度、治理、建模、服务构成的数据基础设施。
这个理解在 BI 时代没有问题。但在 AI 时代,如果平台还只把自己定义成基础设施,它很快就会退化成一个“被调用的后端能力层”,而不是企业智能化的核心枢纽。
我更倾向于把未来的数据平台拆成三个系统:
1. Data System(数据系统)
负责存储、计算、治理、调度、数据服务。
这是 Lakehouse 最擅长的部分,也是今天大多数厂商竞争最充分的一层。
2. Knowledge System(知识系统)
负责语义、规则、指标、实体、关系、术语和经验沉淀。
这部分决定了企业是不是拥有了一个稳定、统一、可治理的“业务解释层”。
3. Reasoning System(推理系统)
负责规划、分析、决策、执行,以及反馈闭环。
这部分往上接应用,往下接语义和数据,最终让 AI 从“能答”走向“能做”。
这三层叠起来,企业平台的主线就会从过去的:
Data Platform = Data Infrastructure
逐步变成:
Data Platform = AI Infrastructure
再进一步,它甚至会继续演进成:
Data → Knowledge → Reasoning → Action
这里最关键的变化是,平台是否开始承担认知与决策功能。如果答案是肯定的,那它就已经不只是一个传统意义上的数据平台了。
八、未来企业更合理的目标架构
如果把上面的讨论收束成一个更完整的推荐架构,我会倾向于下面这条七层路径:
AI Applications | +------------------------+ | ChatBI | Copilot | Agent | +------------------------+ | AI Agent Layer | Semantic Layer | Gold | Silver | Bronze | Lakehouse Foundation | Data Sources
这个架构的好处在于,它把“统一数据”“统一知识”“统一执行”三件事彻底拆开了。
Lakehouse Foundation负责底层数据底座能力;
Bronze / Silver / Gold负责数据加工、可信化和业务建模;
Semantic Layer负责口径、实体、关系、规则和知识抽象;
AI Agent Layer负责调用、规划、分析和执行;
AI Applications则是不同业务场景下的交互入口。
这样一来,企业就不会再把 ChatBI、Copilot、Agent 这些上层应用,当成几块零散能力去拼,而是能把它们放进同一个架构故事里理解。
九、云器 Lakehouse,正在完善这个产品升级
1. Lakehouse Foundation
这一层承接的是平台底座能力,比如:
存算分离
开放表格式(如 Iceberg)
通用增量计算
批流一体
湖上加速
这些能力解决的是“数据怎么统一进来、稳定跑起来、成本可控地算起来”。
2. Semantic Layer
这一层更偏向企业业务认知的沉淀,比如:
指标中心
实体中心
业务术语中心
知识中心
它解决的已经不是物理数据处理问题,而是“企业怎样用同一种语言理解自己的业务”。
3. Data Agent
这一层承接的是数据工作自动化与智能化,比如:
ETL 自动生成
SQL 自动生成
运维自动化
根因分析
它的价值,在于把原来高度依赖人力的分析与工程协作链路尽量压短。[推断]
4. AI Apps
包括:
ChatBI
AI Copilot
决策 Agent
这是企业最终能感知到的应用层,也是价值最容易被感知的一层。但如果没有前面的 Lakehouse 和 Semantic Layer,这一层很容易停留在 demo 状态。
所以更完整的讲法,不是“我们做了一个 ChatBI”,而是:
Lakehouse 统一数据,Semantic Layer 统一知识,Agent 开始接管分析与决策。
这个叙事,会比单讲某个 Agent 或某个加速能力更完整,也更适合形成系列内容。
十、结尾:AI 时代,企业建设的不再只是数据仓库
BI 时代,企业最重要的数据工程目标,是建设一个稳定的数据仓库,或者更进一步,建设一套统一的 Lakehouse。
到了 AI 时代,这个目标本身已经开始变化。
企业当然还是需要仓库、湖仓、计算引擎、调度系统和治理体系,这些能力都不会消失。问题在于,这些能力本身已经越来越难构成真正的差异化。
真正开始拉开距离的,是企业能不能在数据平台之上,再建出一套可被 AI 使用的企业认知系统。
也就是说,未来企业真正要建设的,可能不再只是:
Data Warehouse
而是:
Enterprise Cognitive System[推断]
如果再往下拆,其实就是三句话:
Lakehouse 统一了数据;
Semantic Layer 统一了知识;
Agent 开始接管决策。
于是企业平台也会顺着这条链路继续演进:
Data Platform → Knowledge Platform → Decision Platform
我倾向于认为,这会是未来三到五年企业数据平台最重要的一次架构跃迁。
不是因为 BI 不重要了,而是因为 BI 解决的是“让人看见”;下一代平台要解决的,是让 AI 真正理解、推理,并推动业务动作发生。
这两者之间,差的不是一个新功能,而是一整代系统设计方法。