本文深入解析 Agent 从 Demo 到生产的关键鸿沟,提出 Harness 作为 Agent 运行底座的必要性。核心内容涵盖 Harness 与 Agent Framework、Sandbox 的边界划分,以及最小可行 Harness 架构的 8 项关键职责(任务规格、上下文选择、工具访问等)。通过 6 模块最小可行方案和常见误区解析,帮助开发者系统化搭建可控、可观测的 Agent 系统,为接入大模型生产环境奠定基础。
摘要:Agent 真正进入生产环境以后,最麻烦的不是"模型会不会调用工具",而是它能不能在真实仓库、真实权限、真实失败和真实成本里持续工作。本文把 Harness 定义为 Agent 的运行底座,拆解它和 Agent Framework、Sandbox、MCP、Memory、Evaluation 的边界,并给出一套最小可行 Harness 架构。
标签:AI Agent、Harness Engineering、Sandbox、Agent 架构、生产治理
想象你刚做完一个代码 Agent Demo。它能读文件、能调用shell、能改代码、能跑测试,屏幕上甚至已经出现了那种很迷人的错觉:好像再包装一下,它就能变成团队里的半个工程师。
你把它接到一个真实仓库里,让它修一个跨模块登录 bug。前三步看起来很顺:它定位到了错误文件,改了一处实现,跑了一个单测。然后,熟悉的工程现实开始上桌。
它不知道哪些目录可以改,哪些只能读;跑测试时缺了环境变量;把临时调试文件留在仓库里;上下文快满时,忘了前面为什么放弃第一个方案。最糟的是,测试失败以后,它只回了一句:“看起来还需要进一步调试。”
你想追问它到底看过哪些日志、执行过哪些命令、为什么改这行代码、有没有破坏其他模块。它答不上来,系统也答不上来。
这时问题就很清楚了:你不是缺一个更长的工具列表,而是缺一套能托住 Agent 行动的运行底座。
这个运行底座,就是本文要讨论的 Harness。
Demo 到生产之间差了什么
一个 Agent Demo 通常只需要三样东西:模型、工具列表、循环。模型决定下一步做什么,工具执行动作,循环把观察结果塞回上下文。这个结构像一台裸机:能启动,能跑命令,但还没有权限系统、日志系统、恢复机制和验收流程。
真实任务多了五类压力:
| 压力 | Demo 里怎么处理 | 生产里为什么不够 |
|---|---|---|
| 工作区 | 把几个文件直接塞进上下文 | 真实仓库有成千上万个文件,需要选择、挂载、隔离和持久化 |
| 工具 | 给模型一个shell或read_file | 工具需要权限、超时、审计、失败重试和输出裁剪 |
| 状态 | 靠对话历史记住进度 | 长任务会压满上下文,必须外部化任务状态 |
| 验证 | 让 Agent 自己判断完成 | Agent 自评经常偏乐观,需要独立评价和可复现证据 |
| 安全 | 相信模型不要乱来 | 生产环境默认要防 prompt injection、凭证泄漏和越权操作 |
所以,Demo 到生产之间差的不是"再加几个工具"。真正缺的是一层系统:它管理工具、状态、权限和证据,也让一次 Agent 运行从"看起来会动"变成"出了问题能解释"。
OpenAI 在 2026 年 4 月 15 日发布的 Agents SDK 更新里,把这层系统称为 model-native harness:它让 Agent 能跨文件和工具工作,并把 sandbox execution、Manifest、MCP、skills、AGENTS.md、shell、apply_patch 等能力组织成一组标准基础设施[1]。Anthropic 在 long-running application development 的实践中,也把 harness 设计和长任务分解、结构化交接、独立 evaluator 联系在一起[2]。
这两个方向共同说明了一件事:Harness 已经不是临时胶水代码,而是 Agent 系统的核心架构层。 谁把这层做好,谁才有资格谈"让 Agent 进生产"。
下图把 Demo Agent Loop 和 Production Harness 放在一起看。左边的循环能跑通演示,但缺少工作区、权限、恢复和验证;右边的 Harness 则把这些能力变成显式模块。
图 1: 从 Demo Agent Loop 到 Production Harness。工具调用循环负责"能行动",Harness 负责让行动可控、可观察、可恢复、可验证。
Harness 到底是什么
Harness 这个词有点烦人,因为它在不同语境里指的东西不完全一样。有时它指评测框架,有时它指 sandbox,有时它又像是 Agent SDK 的内部运行循环。为了后续不绕,我们先给一个工程化定义:
Agent Harness 是位于模型和执行环境之间的控制层,负责把模型的意图转化为可执行、可观察、可恢复、可治理的行动。
它不是模型本身,也不是某个具体工具。更准确地说,它像一套"行动管理系统":模型可以提出行动,Harness 决定这个行动是否允许、在哪里执行、如何记录、失败后怎么恢复、最终如何验证。
你可以把 Harness 分成三种含义:
| 类型 | 关注点 | 典型问题 |
|---|---|---|
| Runtime Harness | Agent 如何在环境中运行 | 文件怎么挂载?工具怎么暴露?状态怎么保存? |
| Evaluation Harness | Agent 如何被评测 | 任务集怎么构造?trace 怎么保存?回归怎么拦截? |
| Product Harness | Agent 如何进入产品 | 权限怎么批?成本怎么控?用户如何介入? |
这三种含义不是互斥关系,而是从"跑起来"到"评得准"再到"进生产"的递进关系。本文先抓住 Runtime Harness,因为它是另外两层的地基。
图 2: Harness 概念边界。Runtime Harness 负责让 Agent 可靠运行,Evaluation Harness 负责证明版本是否变好,Product Harness 负责把 Agent 安全地放进生产工作流。
这也是 Runtime Harness 作为地基的原因:没有稳定的运行时,评测只是在评一个飘来飘去的黑盒;没有清晰的运行边界,产品治理也无从谈起。
Harness 不是 Framework,也不是 Sandbox
很多人第一次听到 Harness,会自然把它和 Agent Framework 混在一起。LangGraph、OpenAI Agents SDK、Claude Agent SDK / Claude Code 这类工具、CrewAI 都能编排或承载 Agent,为什么还要单独讲 Harness?
区别在于关注层级不同。
Agent Framework 解决的是"如何组织 Agent 的推理和控制流"。 它关心 agent loop、tool calling、graph state、handoff、memory adapter、multi-agent orchestration。
Harness 解决的是"Agent 在真实环境里如何可靠运行"。 它关心 workspace、sandbox、permissions、snapshot、trace、artifact、verification、approval、rollback。
两者当然会重叠。OpenAI 的 Agents SDK 就把 harness 能力直接纳入 SDK;Claude Agent SDK / Claude Code 这类工具也把工具、hook、session、上下文压缩等运行能力放到框架或产品内部。但从架构理解上,把它们拆开很重要,否则你很容易把"会编排"误判成"能生产运行"。
一个简单判断是:
| 问题 | 更偏 Framework | 更偏 Harness |
|---|---|---|
| Agent 下一步该调用哪个工具? | 是 | 部分相关 |
| 多个 Agent 如何 handoff? | 是 | 部分相关 |
| shell 命令在哪个隔离环境里执行? | 否 | 是 |
| 这个工具调用是否需要用户批准? | 部分相关 | 是 |
| sandbox 丢了以后如何从 checkpoint 恢复? | 否 | 是 |
| 怎么保存一次运行的完整证据包? | 否 | 是 |
| 如何判断新版本 Agent 没有回归? | 否 | 是 |
Sandbox 也不是 Harness。Sandbox 是执行面,负责隔离运行;Harness 是控制面,负责决定什么进入 sandbox、什么能从 sandbox 出来、失败后怎么恢复、证据怎么被记录。一个粗暴但好用的判断是:Sandbox 负责"在哪里跑",Harness 负责"该不该跑、怎么跑、跑完怎么交代"。
更准确的分层是:
Model Layer 负责推理、规划、生成下一步行动 Harness Layer 负责工具路由、状态管理、权限控制、记忆注入、可观测性、评测闭环 Sandbox / Compute Layer 负责隔离执行、文件系统、依赖安装、命令运行、快照恢复 External Systems 代码仓库、云存储、数据库、MCP Server、CI、工单系统OpenAI 的 Agents SDK 更新明确强调 “separating harness from compute”:Harness 和计算环境分离以后,凭证可以留在控制面,模型生成的代码在隔离环境里执行;sandbox 容器丢失时,也可以通过 snapshot 和 rehydration 恢复运行状态[1]。
这张四层图是全文最重要的架构边界:模型只产生意图,Harness 承担控制面,Sandbox 承担执行面,外部系统只能通过受控接口连接。
图 3: Agent Harness 四层架构。Harness 不直接等于模型、框架或容器,它位于模型和执行环境之间,负责把模型意图转成可治理的系统行动。
一套 Harness 至少要管什么
一套生产级 Harness 不一定一开始就很复杂,但至少要管 8 件事。它们听起来像工程清单,其实都来自同一个朴素问题:如果 Agent 做错了,你能不能知道它为什么错、错在哪里、怎么恢复?
还是拿前面的登录 bug 来看。用户一句"修一下登录失败",在 Harness 眼里不能直接变成"放手让模型改仓库"。它要先把这句话拆成任务规格,找到需要的上下文,限制工具权限,准备 sandbox,记录每一步证据,最后跑验证。
下面这 8 类职责,就是这条链路上的关键关卡。
1. 任务规格
Harness 需要把用户的一句话请求转成可执行任务规格。这个规格不一定是完整产品文档,但至少要包含目标、边界、完成标准和禁止行为。
例如:"帮我修复登录失败问题"不是一个足够好的任务规格。Harness 应该进一步明确:
允许修改哪些目录?
是否可以改数据库迁移?
必须跑哪些测试?
是否允许引入新依赖?
修复完成的验收标准是什么?
没有任务规格,Agent 很容易把"我能做什么"误认为"我应该做什么"。这类错误看起来像模型过度行动,本质上是系统没有给它画边界。
2. 上下文选择
Harness 要决定哪些信息进入上下文,哪些信息留在外部。上下文不是越多越好,OpenAI 在 Codex 工程实践中提到,他们没有把一个巨大的AGENTS.md当成百科全书,而是把它做成地图,把更详细的系统知识放在结构化docs/目录里[4]。
这个经验很关键:Harness 的上下文策略不是把所有信息塞给模型,而是教模型在哪里找。
一个健康的上下文层次通常是:
始终注入:任务目标、关键约束、工作区地图 按需检索:架构文档、历史计划、测试说明、领域规则 外部保留:完整日志、完整仓库、大型数据文件、旧 trace项目记忆也是同样的边界:记忆可以由专门的 Memory 系统存储,但 Harness 必须决定什么时候读取、注入、更新和隔离这些记忆。
3. 工具访问
工具不是一个函数列表,而是一组带权限和语义边界的能力。read_file、write_file、shell、browser、search、mcp_call看起来都叫 tool,风险级别却完全不是一回事。
Harness 至少要为工具定义:
| 字段 | 作用 |
|---|---|
| capability | 工具能做什么 |
| scope | 能访问哪些文件、服务、用户数据 |
| risk_level | 是否可能造成破坏、泄漏或高成本 |
| approval_policy | 是否需要用户批准 |
| timeout | 最长执行时间 |
| output_policy | 输出如何截断、脱敏和记录 |
没有这层包装,工具越强,Agent 越危险。给 Agent 一个没有边界的shell,就像把生产钥匙塞进自动脚本里,然后祈祷它每次都理解对了。
4. 工作区和沙箱
真实 Agent 需要可操作的工作区。它要读文件、改代码、跑测试、生成 artifact,还要在失败时知道自己改过什么。只有上下文文本是不够的,因为真实软件工程不是问答题,而是在一个会变化的文件系统里做手术。
OpenAI 的 Sandbox Agents 文档把这些能力落到SandboxAgent、Manifest、Capabilities、sandbox client 等对象上:Manifest 描述工作区,Capabilities 声明可用能力,sandbox client 决定执行环境[3]。
这套设计的关键不是某个类名,而是背后的工程原则:
工作区必须显式声明,执行环境必须可替换,状态必须能恢复。 只要这三件事缺一件,Agent 的运行就会变成一次性实验,很难沉淀成平台能力。
5. 任务状态
长任务最怕状态只存在对话里。对话历史看起来像记忆,其实更像一条越滚越长的日志。一旦上下文被压缩、重置或截断,Agent 就可能忘记已经尝试过什么、为什么放弃某个方案、下一步该做什么。
Anthropic 的 long-running harness 文章给出一个重要模式:当上下文窗口膨胀导致模型失去 coherence 或出现 context anxiety 时,可以通过 context reset 加 structured handoff artifact 继续任务[2]。
这个 handoff artifact 至少应该包含:
当前目标
已完成工作
未完成工作
已尝试但失败的方案
修改过的文件
验证命令和结果
下一步建议
一个具体的 handoff artifact 可能长这样:
{ "handoff_version": "1.0", "current_goal": "修复跨模块登录 bug(ISSUE-2047)", "completed": [ "定位到 auth/modules/login.js 的 token 校验逻辑", "发现 refresh_token 在分布式场景下未加 TTL" ], "pending": [ "为 refresh_token 添加 Redis TTL", "补充并发登录的集成测试" ], "attempted_and_failed": [ { "approach": "直接在内存中缓存 token", "reason": "不满足多实例部署需求,回滚" } ], "modified_files": [ "auth/modules/login.js", "auth/store/redis.js" ], "verification": { "command": "npm test -- auth/tests/login.spec.js", "status": "passed", "coverage": "87%" }, "next_recommended_step": "运行全量集成测试确认无副作用" }Harness 要把"任务进度"从对话历史里搬出来,变成可传递、可审计、可恢复的外部状态。否则任务越长,Agent 越像在凭感觉续写上一章。
6. 可观测性
没有 trace 的 Agent 很难进入生产。用户说"它乱改了",你不能只看最终回答;你需要知道它看过什么、调用过什么、为什么这么做、哪一步开始偏离。否则你面对的不是一个系统,而是一段无法复盘的表演。
Harness 应该记录一份 episode package,把一次运行完整归档:
图 4: Episode Package 信息架构。Task / Execution / Verification / Governance 四个区块构成完整证据包,支持调试排错、回归评测、安全审计和任务交接。
这份记录既是调试工具,也是评测材料和审计证据。它让一次 Agent 运行从"一段聊天"变成"一个可以复盘的工程事件"。
7. 验证和失败归因
Agent 说"我完成了"不等于真的完成。这个问题在代码任务里还算温和,因为测试至少能给出一部分硬反馈。到了设计、产品体验、数据分析这类没有二元结果的任务里,Agent 自评就很容易偏乐观。
所以 Harness 需要把执行者和评价者分开。可以是独立 evaluator Agent,也可以是测试脚本、静态检查、人工审批,或者它们的组合。
更重要的是,Harness 要能做失败归因:
| 失败现象 | 可能原因 |
|---|---|
| 没找到正确文件 | 上下文选择失败 |
| 调错工具 | 工具描述或路由失败 |
| 方案反复横跳 | 任务状态没有外部化 |
| 测试没跑 | 验收标准不清 |
| 越权访问 | 权限模型缺失 |
| 回答无法复现 | trace 不完整 |
没有归因能力,系统改进只能靠感觉。你会不断换模型、改 prompt、加工具,但不知道真正坏掉的是哪一层。
8. 权限和干预
生产环境默认不应该相信模型生成的所有行动。不是因为模型"不可信",而是因为生产系统本来就不应该把高风险操作交给任何未经约束的自动化。Harness 必须支持审批、拒绝、回滚和人工介入。
一个常见的权限分层是:
| 等级 | 示例 | 策略 |
|---|---|---|
| 低风险 | 读文件、列目录、运行只读查询 | 自动允许,记录日志 |
| 中风险 | 修改代码、运行测试、创建临时文件 | 自动允许或批量审批 |
| 高风险 | 删除文件、访问密钥、改生产配置、发外部请求 | 必须人工审批 |
| 禁止 | 导出用户数据、绕过权限、修改审计日志 | 直接拒绝 |
Harness 的目标不是让 Agent 什么都不能做,而是让它的自由有边界、有记录、可回滚。一个好 Harness 不会把 Agent 关起来,而是给它一条足够宽、但有护栏的路。
一个最小可行 Harness
如果你现在要给一个内部代码 Agent 搭最小 Harness,不需要一上来做完整平台。先别急着上多 Agent、图记忆、自动规划和复杂审批流。可以从 6 个模块开始:
图 5: 最小可行 Harness 数据流。6 个模块通过主数据流(实线)和旁路输入(虚线)协作,任何一步失败都能从证据包定位。
每个模块只做一件事:
| 模块 | 最小职责 |
|---|---|
| Task Spec Normalizer | 把用户请求转成目标、边界、验收标准 |
| Context Builder | 注入必要规则,按需检索文档和历史状态 |
| Agent Runner | 执行 agent loop,管理模型、工具和中断 |
| Tool Policy | 决定哪些工具可用,哪些动作需要审批 |
| Sandbox Executor | 提供隔离文件系统、shell、依赖和测试环境 |
| Trace + Verification | 记录执行证据,运行验证,输出结果状态 |
数据流可以这样理解:Normalizer 产出一份"任务合同",Context Builder 按合同去仓库和记忆库里取料,Agent Runner 拿着合同和原料去和模型对话,每次工具调用先过 Tool Policy 安检,实际执行交给 Sandbox Executor,全程由 Trace + Verification 拍下快照。任何一步失败,你都能从证据包里找到确切位置。
这已经比普通 Demo 多了不少结构,但它仍然是最小版本。它不要求复杂多 Agent,也不要求图数据库记忆,更不要求一开始接入所有 MCP Server。
如果你已经在使用 LangGraph、CrewAI 或 OpenAI Agents SDK 等框架,不需要推翻重来。Harness 的 6 个模块可以渐进式接入:先从 Trace + Verification 开始——给每次运行生成一份可复盘的证据包;然后补 Tool Policy——给危险操作加审批;再补 Sandbox Executor——把执行环境隔离出来。每补一层,Agent 的可信度就提升一档。
一个实用原则是:先把一次 Agent 运行变得可复现,再追求更强的自主性。 可复现意味着你知道它看了什么、做了什么、为什么失败、从哪里恢复。没有这一步,所谓自主性只是更快地产生不可解释结果。
常见误区
误区一:把 Harness 等同于工具调用
工具调用只是 Harness 的一个出口。Harness 真正关心的是工具调用前后的完整生命周期:是否允许、在哪里执行、输出怎么处理、失败怎么恢复、证据怎么保留。
如果一个系统只有 tool schema,没有权限、状态、trace 和 verification,它还只是一个工具调用框架。它能让 Agent 伸手,但还不能保证这只手伸向正确的地方。
误区二:把 Sandbox 当成安全答案
Sandbox 能降低风险,但不能自动解决安全。一个 sandbox 里仍然可能发生 prompt injection、数据外传、依赖投毒、无限循环和成本失控。
安全来自分层:凭证不进执行环境,工具最小权限,输出脱敏,危险动作审批,失败可回滚。Sandbox 是重要的一层,但它不是整栋楼。
误区三:以为更长上下文能解决长任务
更长上下文会缓解问题,但不会消除状态管理。长任务的关键不是"能塞下多少历史",而是"能不能把任务状态结构化地交给下一个阶段"。
这也是 Anthropic long-running harness 实践给出的重要启发:context reset 和 structured handoff 有时比单纯 compaction 更有效,因为它让新 Agent 拿到干净上下文,同时保留必要状态[2]。
误区四:只评最终答案
Agent 系统的失败通常发生在中间过程。只看最终答案,你很难判断是模型错了、工具错了、上下文错了,还是 Harness 没有给它正确环境。
Evaluation Harness 要评的不只是结果,还包括 trace、工具调用、文件 diff、测试证据和失败归因。
这四个误区有一个共同底色:把 Harness 看成某种"附加组件",而不是 Agent 系统的核心架构层。只有当你把 Harness 当作底座来设计,而不是事后打补丁,这些陷阱才会真正消失。
系列路线图
本文只是把地图摊开。后续几篇会沿着 Harness 的关键层次往下拆:
| 篇目 | 核心问题 |
|---|---|
| Harness vs Agent Framework | 为什么会用框架还不够? |
| Sandbox 与 Manifest | Agent 如何安全地操作真实文件和工具? |
| Long-running Agent Harness | 长任务如何分段、交接和恢复? |
| Evaluation Harness | 怎么证明 Agent 真的变好了? |
| Production Harness | 权限、审计、成本和可观测性怎么落地? |
这套顺序背后有一个清晰的递进:
概念边界 → 运行架构 → 执行环境 → 长任务状态 → 评测闭环 → 生产治理如果只记住一句话,那就是:Agent 的能力不只来自模型,也来自它被放进什么样的运行系统里。
模型负责思考,工具负责行动,Sandbox 负责隔离,MCP 负责连接外部系统,Memory 负责保留经验,Evaluation 负责证明改进,而 Harness 负责把这些东西组织成一个能长期工作的整体。
这就是 Agent Harness 工程的价值:它把一个会调用工具的模型,变成一个能被工程系统托住的工作者。
最后
2026年技术圈的分化愈发明显:降薪裁员潮持续蔓延,传统开发、测试等岗位大批缩水,不少从业者陷入职业焦虑;与之形成鲜明对比的是,AI大模型相关岗位迎来疯狂扩招,薪资逆势飙升150%,大厂更是直接开出70-100W年薪,疯抢具备实战能力的大模型人才,甚至放宽年龄限制,只求能快速落地技术、创造价值!
很多程序员、职场新人纷纷入局大模型领域,绝非盲目跟风,而是实实在在看到了不可替代的价值优势,这也是2026年最值得抓住的职业风口:
1、窗口期红利,入门门槛友好:不同于成熟赛道的“内卷式招聘”,2026年大模型人才缺口巨大,简历只要达标(掌握基础AI应用+具备简单项目经验),年龄、学历均非硬性要求,小白可快速入门,转行程序员也能无缝衔接;
2、技术可复用,上手速度翻倍:如果你有前后端开发、测试、数据分析等基础,在大模型落地、系统部署、Prompt工程等环节会更具优势,无需从零开始,复用原有技术能力就能快速进阶;
3、懂业务更吃香,竞争力翻倍:单纯懂技术已不够,2026年大厂更看重“技术+业务”的复合型人才,有垂直领域(金融、医疗、工业等)经验者,能精准定位模型落地痛点,薪资比纯技术岗高出30%以上;
更重要的是,即便没有转型需求,用AI大模型工具为工作赋能、提升效率,也已经成为80%企业的硬性要求——不会用大模型提效,未来很可能被行业淘汰!
那么2026年,小白/程序员该如何高效学习大模型?
很多人想入门大模型,却陷入两大困境:要么到处搜集零散资料,不成体系,越学越懵;要么被收费高昂的课程割韭菜,花了钱却学不到实战技能,白白浪费时间走弯路。
今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包,覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程,所有资料均已整理归档,无需拼凑,直接领取就能上手学习,小白可照做,程序员可进阶!
👇👇扫码免费领取全部内容👇👇
1、大模型系统化学习路线
这份学习路线结合2026年行业趋势和新手学习规律,由行业专家精心设计,从零基础到精通,每一步都有明确指引,帮你节省80%的无效学习时间,少走弯路、高效进阶,避免踩坑。
2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。
3、大模型学习书籍&电子文档
涵盖2026年最新技术要点,包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容
4、AI大模型最新行业报告
报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容,还有2026年中文大模型基准测评报告、AI Agent行业研究报告等,帮你站在行业前沿,把握技术风口。
5、大模型项目实战&配套源码
项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向,还有视频配套代码,手把手教你从0到1完成项目开发,既能练手提升技术,又能丰富简历,为求职和职业发展加分。
6、2026大模型大厂面试真题
2026年大模型面试已全面升级,不再单纯考察基础原理,而是转向侧重技术落地和业务结合的综合考察,很多程序员和新手因为缺乏针对性准备,明明技术不错,却在面试中失利。
适用人群
四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
7、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】