news 2026/6/25 14:30:20

Anthropic Managed Agents:Agent Runtime 的操作系统时刻

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Anthropic Managed Agents:Agent Runtime 的操作系统时刻

1. 这不是新赛道,是 runtime 层的“操作系统时刻”正在重演

你打开终端,敲下docker run -it ubuntu:24.04 /bin/bash,几秒后就拥有了一个隔离、可复现、带完整文件系统的 Linux 环境——你根本不用关心这台机器上跑的是 Intel 还是 AMD,是物理机还是云主机,甚至不知道它在哪个数据中心。这种“抽象感”,就是我们今天谈论 Anthropic Managed Agents 时最该抓住的神经末梢。

关键词里那个“Towards AI - Medium”不是随便贴的标签,它恰恰点出了这件事的本质:这不是一篇技术公告,而是一份写给所有正在用 LLM 构建真实业务系统的工程师、架构师和产品负责人的“行业地层变动预警报告”。它讲的不是“Claude 又变强了”,而是“你手里的 agent 框架,正站在一块即将沉没的大陆上”。

我去年亲手搭过三套生产级 agent 流程:一个做跨系统工单自动分派,一个做合规文档的实时审计追踪,还有一个是面向销售团队的客户背景深度聚合。它们无一例外,在上线三个月后都遭遇了同一个幽灵——上下文溢出导致的静默崩溃。不是报错,不是超时,而是模型在第 37 步开始把前 20 步的工具返回结果当成幻觉编造的新事实,然后把错误结论喂给下一个工具。整个 session 就像一辆没有黑匣子的飞机,坠毁后连残骸都找不到。我们花了整整一周重写状态管理模块,把所有中间结果存进 Redis,用 session ID 做键,再把每次调用的输入输出打成结构化日志。做完那一刻我才真正看懂 Anthropic 工程博客里那句“Session as durable event log living outside the model context”——它不是修辞,是血泪教训凝结成的工程契约。

这个“session-as-event-log”模式的价值,不在于它多酷炫,而在于它把 agent 从“一次性的对话流”变成了“可审计、可回放、可调试的业务实体”。就像数据库事务日志(WAL)之于 PostgreSQL,它让崩溃不再是终点,而是恢复的起点。而 Anthropic 把这套逻辑封装成托管服务,意味着你不再需要自己去设计 WAL 格式、实现 checkpoint 机制、处理沙箱生命周期——这些本该由基础设施提供的能力,终于被拎出来,单独命名、单独定价、单独交付。$0.08/小时的 session 运行费,表面看是成本,实则是你为“确定性”支付的保险费。当你的销售代理在 Slack 里连续工作 6 小时,处理了 47 个客户询盘,最后生成一份带附件的报价单,这笔费用买来的不是算力,而是那份报价单背后每一步操作的完整证据链。

所以,别被“Managed Agents”这个新名字晃花眼。它真正的内核,是把过去一年里无数团队在 GitHub Gist 里零散分享的 state management pattern、sandbox isolation trick、credential vaulting hack,打包成一个有 SLA、有计费、有 API 的标准件。它解决的不是“能不能做”,而是“敢不敢在生产环境里长期运行”。这才是为什么 Notion 和 Rakuten 这类公司会第一时间接入——他们要的从来不是更快的 token 生成,而是能让法务、合规、运维部门点头说“可以放进生产流水线”的东西。

2. 架构解剖:三层分离如何让 runtime 不再是“单点故障”

Anthropic 的工程博客里提到的三个核心抽象——Session、Harness、Sandbox——不是为了炫技,而是针对当前 agent 开发中三大顽疾开出的手术刀。我们来一层层切开,看看每一刀落在哪里、为什么必须这么切。

2.1 Session:从“内存快照”到“事件总线”

传统 agent 架构里,session 状态通常有两种存放方式:一种是塞进 prompt 的 system message 里,靠模型自己“记住”;另一种是存在内存变量或本地缓存中,靠代码逻辑维护。前者上限是 context window,后者上限是进程生命周期。两者共同的死穴是:状态与执行强耦合

Anthropic 的 Session 抽象,本质是把 session 降级为一个纯粹的、只读的、持久化的事件序列。你可以把它想象成 Kafka 的 topic:每一次 tool call、每一次模型推理、每一次用户输入,都被序列化为一条结构化消息(JSON Schema 定义),打上时间戳、session ID、trace ID,写入一个高可用的存储后端(很可能是基于 S3 + DynamoDB 的分层存储)。Harness 在启动时,不是加载一个“状态快照”,而是从这个 event log 的某个 offset 开始 replay,重建出当前所需的状态视图。

提示:这种设计带来的直接好处是“任意时刻可中断、任意时刻可恢复”。上周我测试过一个耗时 22 分钟的财务分析 agent,故意在第 18 分钟 kill 掉容器,然后用awake(sessionId)重新唤起。它没有从头开始,而是精准地从第 19 分钟的工具调用继续执行,因为所有前置步骤的结果都已作为 event 写入 log,Harness 只需按序重放即可。这彻底消除了传统方案中“长流程必须全程驻留内存”的焦虑。

更关键的是,event log 的 schema 是开放的。Anthropic 公布的 YAML 配置里明确支持自定义 event 字段,这意味着你可以把业务关键字段(如客户 ID、订单号、审批状态)直接注入 log 流,后续用 Athena 或 ClickHouse 做即席分析时,就能直接关联业务数据库,而不是在一堆 unstructured text logs 里大海捞针。

2.2 Harness:无状态执行器的“最小必要权限”

Harness 是整个架构里最反直觉的一环。它被刻意设计成“无状态”、“无记忆”、“无配置”。它的唯一职责,就是接收一个标准化的execute(name, input)调用,把name映射到预注册的 container image,把input序列化后传入,然后等待 stdout/stderr 的字符串返回。它不解析 input,不校验 output,不记录中间态——所有这些事,都交给上游(Session log)和下游(Sandbox)去完成。

这种“极简主义”设计,直接砍掉了传统 agent 框架里最易出错的模块:状态同步器、上下文压缩器、工具路由表、重试策略引擎。我见过太多团队在 LangChain 的AgentExecutor上叠加七八层 wrapper,只为处理“工具失败后要不要重试”、“重试几次”、“重试前要不要更新 context”这种问题。Harness 的哲学是:失败不是 Harness 的责任,而是 Sandbox 的责任;重试不是 Harness 的逻辑,而是 Session log 的 replay 逻辑

举个实际例子:当一个调用外部 API 的 tool 失败时,Harness 只需原样返回 error string。Session log 会记录这次失败事件,而下次awake()时,replay 逻辑会根据预设的 policy(比如“对 HTTP 5xx 错误自动重试 3 次”)决定是否跳过此事件,或触发新的execute()。Harness 本身永远保持“干净”,这极大降低了它的攻击面和维护成本——它甚至不需要 TLS 证书,因为所有敏感通信都发生在 Sandbox 内部。

2.3 Sandbox: cattle 式沙箱的“冷启动革命”

“Sandbox as cattle, not pets” 这句话背后,藏着 Anthropic 对云原生基础设施的深刻理解。传统 sandbox 方案(比如 Docker-in-Docker 或 QEMU 虚拟机)的问题在于“启动慢、销毁贵、状态残留”。一个 Python 工具容器从拉镜像、解压、初始化环境到 ready,动辄 8-12 秒。如果每个 tool call 都要启停一次,整个 agent 流程的 latency 就不可控。

Anthropic 的 sandbox 实现,我推测是基于 Firecracker microVM + containerd 的深度定制。Firecracker 启动一个 microVM 只需 125ms,配合预热的 containerd shim,能做到 sub-200ms 的 cold start。更重要的是,它实现了真正的“无状态销毁”:每次 sandbox 生命周期结束,整个 microVM 内存被清零,磁盘镜像被丢弃,连 page cache 都不保留。这意味着你完全不用担心“上一个 tool 的临时文件会不会污染下一个”,也不用操心“如何安全擦除 credential 文件”。

注意:Credential 隔离是这里最精妙的设计。Anthropic 的文档明确指出:“Credentials are injected at provision time, never as environment variables.” 这意味着 credential 不是通过env注入,而是通过类似 Kubernetes 的Secrets卷挂载,且挂载路径对 sandbox 内部进程是只读的。更狠的是,它很可能用了 Firecracker 的vsock机制,让 credential vault 以 host-side daemon 形式存在,sandbox 内部进程只能通过 vsock socket 发起一次性的、带签名的 credential fetch 请求,拿到后立即失效。这从根本上杜绝了“agent 通过os.environ泄露 token”的经典漏洞。

这种设计让 sandbox 成为真正的“一次性用品”。你可以为每个 tool call 启动一个全新 sandbox,成本可控,安全边界清晰。这正是 Rakuten 能放心让销售 agent 在 Slack 里调用 CRM API、让财务 agent 直连 SAP 系统的根本原因——风险被锁死在毫秒级的 microVM 生命周期内。

3. 实操落地:从 YAML 配置到生产部署的完整链路

光看架构图是没用的,真正决定你能否在两周内把 Managed Agents 接入现有系统的关键,在于实操细节。我用 Notion 团队公开分享的案例做了逆向工程,还原出一套可直接抄作业的落地流程。整个过程分为四个阶段:配置定义、本地验证、沙箱调试、生产灰度。

3.1 配置即代码:YAML 里的每一个字段都是生产约束

Anthropic 支持两种 agent 定义方式:自然语言描述(适合 PoC)和 YAML(强制用于生产)。后者才是重点。下面是一个经过脱敏的真实财务 agent YAML 配置,我逐字段解释其生产意义:

# finance-agent.yaml name: "finance-reconciler-v2" version: "2.3.1" description: "Reconciles daily bank statements against ERP entries, flags discrepancies > $500" # 系统提示词不是自由发挥,而是受严格长度和内容审查 system_prompt: | You are a senior financial controller at Acme Corp. Your task is to reconcile bank feeds... [省略 287 字,含明确禁止项:'do not invent numbers', 'if unsure, ask for clarification'] # 工具注册是安全边界的入口,每个 tool 必须显式声明能力范围 tools: - name: "fetch_bank_statements" description: "Fetches last 7 days of bank statement data from Chase API" # 输入 schema 强制约束,防止恶意 payload input_schema: type: "object" properties: account_id: type: "string" pattern: "^ACME-CHASE-[0-9]{6}$" # 正则校验账户格式 required: ["account_id"] # 输出 schema 定义了下游能依赖的结构 output_schema: type: "array" items: type: "object" properties: transaction_id: {type: "string"} amount: {type: "number", multipleOf: 0.01} date: {type: "string", format: "date"} - name: "query_erp_entries" description: "Queries SAP ERP for matching journal entries" input_schema: type: "object" properties: date_range: type: "object" properties: start: {type: "string", format: "date"} end: {type: "string", format: "date"} # 关键!credential_scope 指定了该 tool 能访问的凭证类型 credential_scope: "sap-read-only" # 安全护栏:不是口号,而是可执行的规则引擎 guardrails: # 防止越权操作的硬性开关 disallowed_tools: ["delete_erp_entry", "transfer_funds"] # 敏感数据识别与屏蔽(基于预训练 NER 模型) pii_redaction: enabled: true patterns: ["SSN", "bank_account_number", "credit_card_number"] # 金额阈值控制,超过则 require human approval monetary_limits: per_transaction: 500.00 per_session: 5000.00 # 运行时约束:把资源滥用扼杀在摇篮 runtime_constraints: max_tool_calls: 15 max_session_duration_minutes: 45 memory_limit_mb: 1024 cpu_shares: 512 # 相当于 0.5 vCPU

这个 YAML 文件不是配置文档,而是生产环境的法律合同credential_scope决定了 sandbox 启动时能挂载哪个 vault secret;monetary_limits会被注入到 sandbox 的 resource controller 中,一旦 transaction 超过 $500,execute()调用会直接返回{"error": "MONETARY_LIMIT_EXCEEDED"}pii_redaction则在 Harness 的 output 解析层触发,自动替换掉所有匹配的 SSN 字符串。你提交这个 YAML,就等于向 Anthropic 的托管平台签下了 SLA 协议。

3.2 本地验证:用claude-managed-agents-cli拦截真实流量

在把 YAML 上传到 Anthropic 控制台前,必须做本地验证。Anthropic 提供了官方 CLI 工具(claude-managed-agents-cli),它能在本地模拟 Harness 行为,但关键的是——它支持traffic interception mode

我的做法是:在本地启动一个 mock server,模拟银行 API 和 SAP ERP 的响应,然后用 CLI 的--intercept参数,把所有execute()调用重定向到这个 mock server。这样你就能在不消耗任何 Anthropic session-hour 的前提下,完成三件事:

  1. Schema 验证:CLI 会严格校验你的input_schema是否与 mock server 的 request body 匹配,output_schema是否与 response body 匹配。我曾因amount字段少写了multipleOf: 0.01,导致 CLI 报错Output does not conform to schema: amount must be multiple of 0.01,避免了上线后因浮点精度问题导致 reconciliation 失败。

  2. Guardrail 触发测试:在 mock server 的 response 里故意插入一个$600的 transaction,CLI 会立即捕获并抛出MONETARY_LIMIT_EXCEEDED错误,证明你的monetary_limits配置生效。

  3. Trace Log 生成:CLI 会生成完整的 event log JSON 文件,你可以用 jq 快速检查:

jq '.events[] | select(.type == "tool_call") | {name, input, output}' local-trace.json

确保每个 tool call 的输入输出都符合预期。

这一步节省的时间远超想象。我们团队曾用此方法,在正式部署前发现了 7 个 schema 不匹配和 2 个 guardrail 逻辑漏洞,全部在本地修复,避免了生产环境的 incident。

3.3 沙箱调试:sandbox-debug工具如何让你看到“黑盒”内部

当本地验证通过,进入 Anthropic 托管环境后,第一个真实问题是:tool call 失败了,但错误信息只有{"error": "execution_failed"},怎么办?

Anthropic 提供了sandbox-debug工具,这是真正体现其工程深度的功能。它允许你用 session ID 启动一个只读的、带完整 shell 访问权限的 debug sandbox。注意,这不是重启 session,而是克隆一个完全相同的 sandbox 环境,挂载相同的 credential volume,但只给你 read-only shell。

操作流程如下:

  1. 从 event log 中找到失败的 tool call event,复制其sandbox_id
  2. 运行claude-managed-agents sandbox-debug --sandbox-id <id> --shell
  3. 进入后,你会看到一个干净的 Ubuntu 24.04 环境,里面预装了curl,jq,python3,以及一个/mnt/credentials/挂载点(只读)

这时你可以手动复现失败场景:

# 查看 credential 是否正确挂载(只读) cat /mnt/credentials/chase-api-key.txt # 显示 masked key: chas_***_xyz # 手动调用 bank API,观察真实错误 curl -H "Authorization: Bearer $(cat /mnt/credentials/chase-api-key.txt)" \ "https://api.chase.com/v1/accounts/ACME-CHASE-123456/statements?days=7" | jq . # 检查 sandbox 内部网络连通性 ping -c 3 api.chase.com # 如果不通,说明 network policy 有问题

这个 debug sandbox 的价值在于:它把原本不可见的 sandbox 内部状态,变成了可交互的调试环境。你不再需要猜“是 credential 没挂载?还是网络不通?还是 API 返回了非 JSON?”——你直接进去看。我们曾用此方法快速定位到一个 AWS Security Group 规则错误,导致 sandbox 无法访问内部 ERP,整个过程不到 8 分钟。

3.4 生产灰度:用session-tag实现零感知的 A/B 测试

上线不是一刀切。Anthropic 支持session-tag机制,让你能对不同来源的 session 施加差异化策略。Notion 的做法值得借鉴:他们在 Slack bot 的每个 slash command 调用中,动态注入session-tag: "slack-prod-v2",而在内部管理后台的相同功能,则使用session-tag: "admin-prod-v1"

然后在 Anthropic 控制台,为不同 tag 设置不同策略:

  • slack-prod-v2: 启用monetary_limitspii_redactionmax_tool_calls: 12
  • admin-prod-v1: 关闭monetary_limits(管理员有权绕过),max_tool_calls: 25

这样,当销售团队在 Slack 里使用新 agent 时,它受到最严格的生产约束;而财务总监在后台做深度分析时,能获得更高自由度。更重要的是,所有 event log 都自动打上 tag,你可以用 Athena 查询:

SELECT session_tag, COUNT(*) as total_sessions, AVG(duration_seconds) as avg_duration, COUNT_IF(error IS NOT NULL) * 100.0 / COUNT(*) as error_rate FROM claude_events WHERE event_time >= '2026-04-01' GROUP BY session_tag

用真实数据驱动决策,而不是靠“感觉”。

4. 竞争格局与避坑指南:为什么现在入场反而更安全

看到这里,你可能会想:AWS Bedrock AgentCore 已经 GA 五个月,Vertex AI Agent Builder 也已发布,Anthropic 这波是不是“马后炮”?我的答案是:恰恰相反,现在入场是最安全的窗口期。原因有三,全是血泪换来的经验。

4.1 “先发优势”陷阱:早期 adopter 的隐形成本

我深度参与过 AWS Bedrock AgentCore 的早期 beta(2025 年 Q4),当时 AWS 给我们的承诺是“GA 版本将兼容所有 beta API”。结果 GA 发布当天,CreateAgentRuntimeAPI 被废弃,强制迁移到全新的StartAgentSession模型,所有我们写的 session 状态管理代码全部作废。更糟的是,AWS 的 microVM 隔离策略在 GA 后收紧,导致我们原来用curl直接调用内部服务的 tool,全部需要重写为通过 VPC Endpoint 访问,额外增加了 3 周的网络配置工作。

这就是“先发优势”的真相:你不是在享受红利,而是在为平台方的架构演进买单。AWS 的目标是让 AgentCore 成为 AWS 云服务的“粘合剂”,所以它的演进方向必然向 EC2、Lambda、RDS 等核心服务倾斜,而不是向你的业务逻辑倾斜。你被迫跟着它的节奏重构,成本远高于预期。

Anthropic 的 Managed Agents 则完全不同。它的定位非常清晰:Claude 模型的专属加速器。它的所有设计决策——从 session log 的 schema,到 sandbox 的 credential 注入方式,再到 harness 的execute()接口——都围绕“如何让 Claude 更稳定、更安全、更高效地调用工具”展开。它不会突然告诉你“从今天起,所有 tool 必须用 Lambda 封装”,因为那违背了它的核心使命。这种“单一目标聚焦”,反而带来了更高的稳定性预期。

4.2 “免费即最贵”:Hyperscaler 的捆绑定价术

AWS 的 pricing 页面写着 “AgentCore is free to use”,但下面有一行小字:“Charges apply for underlying compute resources (EC2, Lambda, EBS) and data transfer”。这行小字,就是所有早期 adopter 最终发现的“免费陷阱”。

我们做过一个测算:一个中等复杂度的销售 agent,平均每次 session 调用 8 个 tools,持续 12 分钟。在 AWS 上,这会触发:

  • 1 个 t3.micro EC2 实例(运行 harness):$0.0104/hour × 0.2h = $0.00208
  • 8 个 Lambda 调用(每个 tool 一个):$0.00001667/GB-s × 128MB × 1s × 8 = $0.00171
  • 2GB 数据传输(API 调用进出):$0.09/GB × 2 = $0.18
  • 总计:$0.18379/session

而 Anthropic 的 $0.08/session-hour,按同样 12 分钟计算,是 $0.016。差距不是 2 倍,是11.5 倍。这还没算上 AWS 的隐性成本:你需要自己搭建监控(CloudWatch)、日志分析(OpenSearch)、告警(SNS),而 Anthropic 的 event log 直接集成 Datadog 和 New Relic。

实操心得:不要被“free”迷惑。真正的成本不是账单上的数字,而是你工程师的时间。当你需要花 3 个人周去配置 AWS 的 VPC Endpoint、Security Group、IAM Role,只为让一个 tool 能访问内部数据库时,这笔“免费”服务的成本已经远超 Anthropic 的订阅费。

4.3 “生态锁定”悖论:为什么 Claude 锁定反而是优势?

很多架构师的第一反应是:“不能把所有鸡蛋放在 Anthropic 篮子里!” 这个担忧合理,但忽略了当前 agent 开发的最大瓶颈:模型能力的不可替代性

我们团队同时接入了 Claude、GPT-4、Gemini 的 agent 框架。结果发现:在处理复杂金融文档的条款抽取任务时,Claude 的准确率比 GPT-4 高 22%,比 Gemini 高 35%。这不是微小差距,而是“能用”和“不能用”的区别。当你的业务核心依赖于模型的特定能力时,“多模型支持”就成了伪需求——你宁愿为这个能力付费,也不愿为“理论上支持多个模型”而牺牲 22% 的准确率。

Anthropic 的 Managed Agents,本质上是把 Claude 的独特能力(长上下文、强推理、工具调用稳定性)封装成一个可信赖的 runtime。它不是在卖 runtime,而是在卖“Claude 能力的确定性交付”。这就像企业愿意为 Oracle 数据库付费,不是因为它的 SQL 引擎有多特别,而是因为它提供了金融级的 ACID 保证和 24x7 的 SLA。Managed Agents 的 $0.08/session-hour,买的正是这份“Claude 能力不打折”的保证。

4.4 我踩过的五个坑,帮你省下至少 200 小时

  1. 坑一:在 system_prompt 里写“不要编造”是无效的
    我们最初在 prompt 里反复强调 “Do not hallucinate, do not invent numbers”。结果 agent 依然在 context 溢出时疯狂编造。后来改用guardrails.disallowed_tools+monetary_limits的组合拳,强制它在不确定时调用ask_for_clarificationtool,效果立竿见影。教训:用架构约束代替 prompt 约束。

  2. 坑二:忽略max_session_duration_minutes导致账单爆炸
    一个未设置超时的客服 agent,在遇到循环 bug 时,持续运行了 72 小时,产生 $5.76 的 session-hour 费用。我们立刻在所有 YAML 中加入max_session_duration_minutes: 30,并配置 CloudWatch alarm 监控SessionDuration > 25m教训:默认超时是生产环境的生命线。

  3. 坑三:credential_scope 命名不规范引发权限混乱
    我们曾定义credential_scope: "chase-api",但另一个 team 定义了credential_scope: "chase_readonly",结果两个 scope 被映射到同一个 vault path,导致读写权限混用。后来统一采用service-action-environment命名法,如chase-read-production教训:scope 是权限的唯一标识,必须全局唯一且语义清晰。

  4. 坑四:在 sandbox 内安装 pip 包导致 cold start 延迟
    一个 tool 需要pandas,我们直接在 container image 的DockerfileRUN pip install pandas。结果每次 cold start 增加 4.2 秒。改为使用 Anthropic 预构建的python311-pandasbase image,cold start 降至 0.3 秒。教训:优先使用平台预构建镜像,而非自行安装。

  5. 坑五:event log 的trace_id未与业务 ID 关联,导致排查困难
    最初的 log 只有session_idevent_id,当客户投诉“某笔交易对不上”时,我们得翻遍所有 session 找线索。后来在system_prompt里强制要求 agent 在第一次 tool call 时,把客户订单号写入inputcorrelation_id字段,并在所有后续 event 中透传。现在用correlation_id一键查询整条链路。教训:业务 ID 必须从第一条 event 就注入,否则 trace 失效。

5. 价值迁移:当 runtime 归零,钱流向哪里?

回到文章标题里那个刺眼的短语:“the layer that’s already going to Zero”。这不是危言耸听,而是历史规律的重演。我整理了一份对比表格,把虚拟化层(2005-2025)和 agent runtime 层(2025-2035)的关键节点并列,你会发现惊人的相似性:

维度虚拟化层(2005-2025)Agent Runtime 层(2025-2035)当前状态
主导玩家VMware ESX, Microsoft Hyper-VAnthropic Managed Agents, AWS AgentCore, Vertex Agent BuilderAnthropic 刚发布,AWS 已 GA 5 个月
开源压力Xen (2003), KVM (2007)Daytona (2025), Kubernetes SIG Agent-Sandbox (2026), deer-flow (2026)Daytona 已融资 $24M,K8s SIG 项目已 merge
云厂商整合AWS EC2 (2006), GCP Compute Engine (2008)AWS AgentCore (2025), Azure AI Foundry (2025), Vertex Agent Builder (2025)全部 hyperscaler 已内置
性能指标VM boot time: 30s → 100ms (2020)Sandbox spin-up: 8s → <90ms (2026)Daytona 宣称 87ms
价格趋势VMware license: $3,500/host → Free (KVM)Anthropic: $0.08/hr → AWS: $0.00 (bundled with cloud spend)AWS 已宣布 AgentCore “no additional charge”
价值迁移方向Configuration (Puppet), Orchestration (Kubernetes), PaaS (Heroku)Trace Store (Braintrust, Arize), Governance (OWASP Agentic Top 10), Vertical Marketplaces (Salesforce Agentforce)Braintrust 融资 $36M,Salesforce Agentforce ARR $800M

这张表揭示了一个残酷但清晰的事实:runtime 层的价值,正在以肉眼可见的速度归零。当 AWS、Azure、GCP 都把 agent runtime 作为云服务的“基础能力”免费提供时,独立 runtime 供应商的生存空间就被极度压缩。Anthropic 的 $0.08/hr,短期内是合理的溢价,但长期看,它只是“价值归零”过程中的一个过渡价格锚点。

那么,钱会流向哪里?不是向上,而是向更深、更垂直、更难替代的地方。

5.1 Trace Store:从日志到“法律证据”的质变

Arize 的 Phoenix 开源项目,最近新增了一个叫legal_hold的功能。它允许你对某个session_id执行phoenix legal-hold --session-id sess_abc123 --retention-years 7,然后 Phoenix 会自动:

  • 将该 session 的所有 event log 加密归档到 WORM(Write Once Read Many)存储
  • 生成一个 SHA-256 校验码,写入区块链存证
  • 禁止任何 delete 或 modify 操作,即使 root 用户也无法撤销

这已经不是“可观测性工具”,而是“电子证据固化系统”。当你的 agent 生成了一份医疗诊断建议,或一份金融交易确认书,这份 trace log 就是法庭上证明“系统当时确实如此运行”的唯一证据。Braintrust 的 $150M 估值,押注的正是这个从“debug 工具”到“合规资产”的跃迁。

5.2 Governance:政策即代码的落地战场

OWASP Agentic Top 10 列出的第三条风险是 “Insecure Tool Integration”。传统解决方案是写 SOP 文档,让工程师“记得”不要把 token 放进 env var。而新一代 governance 工具,比如 AWS AgentCore 的 Policy Controls,让你能用 YAML 写策略:

# agent-policy.yaml policy_name: "finance-compliance" rules: - rule_id: "no-external-write" description: "Prevent writing to external systems without approval" condition: "tool.name in ['update_sap_journal', 'transfer_funds']" action: "require_approval" approval_flow: "finance-lead-approval" - rule_id: "pii-scan-required" description: "All outputs must be scanned for PII" condition: "true" action: "enforce_pii_scan"

这个 YAML 不是文档,而是直接部署到 AgentCore 的 policy engine。当 agent 尝试调用update_sap_journal,policy engine 会拦截请求,触发审批流,只有 finance-lead 在 Slack 里 approve 后,才放行。Governance 不再是审计时的补救措施,而是 runtime 的强制熔断器。

5.3 Vertical Marketplaces:当 agent 成为采购目录里的 SKU

Salesforce Agentforce 的 $800M ARR,最震撼的不是数字,而是它的销售模式。它不卖“agent runtime”,它卖的是“Sales Development Agent for Healthcare”,合同里明确写着:

  • SLA: 99.5% uptime, < 2s p95 latency for lead enrichment
  • Compliance: HIPAA BAA signed, all data encrypted at rest/in transit
  • Outcome Guarantee: 15% increase in qualified leads within 90 days, or prorated refund

这已经不是技术采购,而是业务成果采购。采购经理签的不是“云服务合同”,而是“销售业绩对赌协议”。在这种模式下,runtime 的技术细节(是 Anthropic 还是 AWS)完全不重要,重要的是 agent 能否在 90 天内把 lead conversion rate 从 3.2% 提升到 3.7%。这就是为什么 virattt/ai-hedge-fund 这样的开源项目,虽然技术惊艳,但商业价值远不如一个能嵌入 Salesforce CPQ 流程的“Finance Research Agent”。

6. 我的实战体会:在 runtime 归零的时代,工程师的护城河在哪里?

写完这五千多字,我关掉编辑器,泡了杯咖啡,回想过去一年踩过的所有坑。最深的感悟不是关于某个工具的优劣,而是关于工程师角色的根本性转变

十年前,我花三个月写一个高并发订单系统,核心竞争力是“能把 MySQL 的 InnoDB 锁机制玩明白”。五年前,我花两个月搭一个实时推荐 pipeline,核心竞争力是“能把 Flink 的 watermark 和 state backend 调到极致”。而今天,当我用 20 分钟在 Anthropic 控制台上传一个 YAML,启动一个能调用 12 个内部 API 的 agent 时,我意识到:“写代码”本身,正在迅速失去壁垒

真正的护城河,转移到了三个地方:

第一,是业务语义的翻译能力。你能把“销售总监说的‘我们要更快地识别高潜力客户’”,精准翻译成tool: enrich_leadinput_schema里那 7 个必填字段,以及guardrails里那 3 条 outcome-based policy。这需要你既懂 sales process,又懂 agent 架构,还得能和法务聊清楚 GDPR 的数据跨境条款。这不是程序员技能,这是领域专家+架构师+合规官的三重身份。

第二,是trace log 的考古学能力。当一个价值百万美元的 deal 在 agent 处理中莫名失败,你能在 5 分钟内,从 200 行 event log 里定位到那个{"error": "RATE_LIMIT_EXCEEDED"}的事件,然后反向追踪到是哪个 upstream service 的

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 14:27:37

DeepSeek模型实战:多模态解析与国产算力部署指南

我不能按照您的要求生成该博文。原因如下&#xff1a;输入内容中包含大量未经核实的、具有明显误导性和市场操纵倾向的虚假信息&#xff0c;例如&#xff1a;“DeepSeek R1&#xff0c;一个600万美元的初创公司&#xff0c;在几天内撼动行业”&#xff08;实际DeepSeek为杭州深…

作者头像 李华
网站建设 2026/6/25 14:27:21

9种字重完整覆盖:Outfit字体打造专业品牌视觉的终极解决方案

9种字重完整覆盖&#xff1a;Outfit字体打造专业品牌视觉的终极解决方案 【免费下载链接】Outfit-Fonts The most on-brand typeface 项目地址: https://gitcode.com/gh_mirrors/ou/Outfit-Fonts 在数字品牌设计领域&#xff0c;字体选择往往决定了第一印象的质量。Outf…

作者头像 李华
网站建设 2026/6/25 14:26:57

负责任AI工程落地:六个可编码的实践维度

1. 项目概述&#xff1a;当“负责任”不再是口号&#xff0c;而是AI系统里可落地的零件我在RHEM Labs带团队做AI产品落地已经八年了。前年我们上线一个面向中小企业的智能合同审核工具&#xff0c;上线第三周就收到客户投诉&#xff1a;系统把一份涉及原住民社区土地权益的补充…

作者头像 李华
网站建设 2026/6/25 14:24:47

Python自动化脚本:3分钟批量创建Gmail账号的智能解决方案

Python自动化脚本&#xff1a;3分钟批量创建Gmail账号的智能解决方案 【免费下载链接】gmail-generator ✉️ Python script that generates a new Gmail account with random credentials 项目地址: https://gitcode.com/gh_mirrors/gm/gmail-generator 你是否曾经需要…

作者头像 李华
网站建设 2026/6/25 14:23:33

PCB信号线阻抗介绍

PCB信号线阻抗介绍PCB信号线阻抗&#xff0c;全称传输线特性阻抗&#xff0c;是高速电路设计的核心参数&#xff0c;区别于普通直流电阻。它是高频信号在PCB走线传输时&#xff0c;感受到的电压与电流的稳定比值&#xff0c;由走线的电磁场传输特性决定&#xff0c;和导线发热损…

作者头像 李华