导读:经常有人私信问我:"我想转 AI测试,从哪开始?"我一般先反问一句:你想让 AI 帮你测业务,还是想专门测 AI 产品?两个问题听起来像一回事,学的东西差很远。很多人卡半年,往往是两条线混在一起学,越学越乱。选对路比盲目学重要十倍。
作者:测试员周周 | 14 年测试老兵阅读时间:约 12 分钟
上个月有个读者私信我,说他学 AI测试 学了半年,LangGraph、RAG、Prompt 都看了,但还是不知道自己能干什么。
我问他:你想让 AI 帮你测原来的系统,还是想专门测 AI 产品?
他愣了一下,说:这不是一回事吗?
不是一回事。先钉死一句话:线 A,AI 是手段(帮你测系统);线 B,AI 是被测对象(系统本身就是模型/对话/Agent)。你记住这一句,后面就不会偏。
这两条线学的东西差很远,混在一起学,结果就是每条线都沾一点,每条线都拿不出手。
我带过的同事里,转得最快的往往不是学得最拼的,而是最先想清楚走哪条线、并且没把两条线混成一门课的那个。今天把这两条线拆开说清楚,你对照自己的情况,选一条主线走。后面我会按「零基础毕业」和「功能测试转岗」两种背景,分别给分阶段路线。
两条线,根本不是一回事
我第一次接触"AI测试"这个概念时,也以为是同一件事。后来在团队里待久了,发现团队说的"AI测试"和招聘网站上写的"AI测试",往往是两码事。
第一条线:用 AI 帮你测原来的系统
你还是测电商、后台、App,只是手段变了。用大模型帮忙写用例、生成pytest 脚本、从知识库里翻历史缺陷,最后接进 CI。团队里常叫自动化、测开、效能。
你关心的烦恼是这些:脚本谁维护?定位器一改版本全挂怎么办?用例写得慢怎么解?
第二条线:被测对象本身就是 AI
产品是对话、知识库问答、带工具调用的 Agent。你要定义"什么叫答得好"、建黄金数据集、做注入和越狱、看检索有没有引错文档。岗位 JD 里常出现大模型应用测试、评测、智能体质量。
你关心的烦恼是这些:没有标准答案怎么办?同一问题每次回复不一样怎么测?线上出了事说不清是模型还是检索的锅。
有一条很容易混:RAG。一句话对照:
- 线 A 的 RAG:测人的知识库(检索规范/用例/缺陷,帮你找以前的东西)
- 线 B 的 RAG:测产品的检索链(召回准不准、会不会编、引没引错文档)
先想清楚自己站在哪一侧,再往下学。
你怎么判断自己该走哪条
不必二选一学到死,但要有主线。
如果你投的岗位写的是自动化、测开、测试开发,或者公司 AI 只是辅助写脚本、内部工具,主线放第一条。第二条补到大模型基础、能看懂对话类产品怎么测即可,大概一两成时间。如果你的业务是老系统、外包、强 UI 类,线 A 更容易先出成果。
如果 JD 明确写大模型、RAG、Agent、智能客服,主线放第二条。第一条至少要会 pytest、能跑一条 UI 或接口冒烟,不然评测脚本都落不了地。
如果团队"业务系统 + 对话模块"都有,比较务实的做法是:两条线各做一个能讲清楚的小成果,面试时先说业务里 AI 占多大,再展开。这比简历上堆十个框架名管用。
不管走哪条,有两件事绕不开
一是能不能写脚本。不用当开发,但要能 pytest 批跑、断言、落盘结果。没有这层,线 A 落不了地,线 B 的评测也只剩手工点对话框。
二是懂一点大模型常识。至少会调 API、知道 Token 和上下文什么意思、明白"同一句话问两次答案可能不同"。线 A 到这里可以先停一停;线 B 还要往下挖 Prompt 和评测。
测试基本功(用例、缺陷、风险)如果你完全没有,需要先补两三周;功能测试转行的,多半复习一下即可。
学到什么程度算够用
不用每件事都学到能讲课。我自己会粗分四档:
| 档位 | 标准 | 求职时够不够 |
|---|---|---|
| 知道 | 面试能讲清楚这是啥、解决啥问题 | 不够,简历写"熟悉 LangGraph"容易穿帮 |
| 能跟做 | 对着文章或示例跑通一遍 | 辅线够用 |
| 能独立做 | 关掉教程,自己完成一个小需求 | 主线至少要到这档 |
| 能讲取舍 | 为什么用规则引擎不用纯生成、为什么这类用例必须人工复核 | 工作一两年后的状态 |
求职时,主线上的技能至少要"能独立做";辅线"能跟做"往往就够。只停在"知道",面试很容易穿帮。
大概要投入多久
时间因人而异。下面给稳妥版和冲刺版两档。两个提醒:
- 以"能独立做出一小段"为准,不是课程看完。目录读完了不算数,能关掉教程自己跑通才算。
- 若公司业务偏老系统/外包/强 UI,线 A 更容易先出成果,不必等线 B 学完再投。
在职每天 1.5~2 小时,或只有周末才学,请在对应档位上再乘以 1.3~1.5。
刚毕业、两条线都想走一遍
| 档位 | 目标 | 每天约 2~3 小时 |
|---|---|---|
| 冲刺版 | 两条线各有一个能演示的成果 | 5~6 个月 |
| 稳妥版 | 同上,节奏更从容 | 6~8 个月 |
前 1.5~2 个月最磨人,主要在 pytest。通常 3~4 个月左右能拿线 A 的成果去投自动化/测开类岗,不必等线 B 学完再投。
有功能测试经验
| 档位 | 只深耕一条线 | 两条线各一个小成果 |
|---|---|---|
| 冲刺版 | 2.5~3.5 个月 | 4~5 个月 |
| 稳妥版 | 3~4 个月 | 4~6 个月 |
共同底座多半 2~3 周能过。你原来的用例和业务理解是资产,别从零否定自己。
线 A / 线 B 各学什么(一张表扫一眼)
| 阶段 | 线 A(赋能) | 线 B(测 AI 产品) | 产出 |
|---|---|---|---|
| 共同底座 | pytest + 大模型API | pytest + 大模型API | 能写pytest、调API |
| 第二阶段 | Prompt + Playwright + 规范驱动 | Prompt评测 + 黄金集 | 自动化包 或 黄金集 |
| 第三阶段 | Agent编排 + MCP + RAG + CI | RAG + Agent + 安全 + 性能 | 流程图 或 评测包 |
| 时间 | 2~3.5个月 | 2.5~4个月 | 各一个可演示成果 |
线 A 的 Agent 是帮你跑测试流程的;线 B 的 Agent 是被测产品。别混。
怎么算"学到位了"
别用收藏篇数衡量。更实在的三件事:
线 A:pytest 或 Playwright 能重复跑 + 一份规范 + 能画清 Agent/MCP/RAG/CI 在流程里各管哪段。
线 B:可回归的黄金集 + 批跑 + 指标 + 一小套安全用例(幻觉、注入、检索空等)。
进阶:能画"需求 → 用例 → 执行 → 报告 → 知识库/评测"谁负责——不必真造商业平台。
常见坑:我见过不少人在这几个地方翻车
用大模型生成用例但不校验。看着生成了五十条,拿过来跑,三分之一是废的。生成只是第一步,人工校验才是关键。
评测只跑一次就下结论。大模型的输出有随机性,同一套用例跑三次结果可能不一样。不批跑、不统计通过率,一次结果说明不了问题。
把"调通 API"当成"会测 AI 产品"。能调通接口只是底座,不代表你知道什么叫"答得好"、什么叫"检索准"。那是线 B 后面要补的。
两条线混成一门课学。这也是开头那个读者卡半年的原因。先选主线,辅线补到"能跟做"就行。
下一篇你会看到什么
零基础的同学,下一篇我会给你一条四阶段路线——每一段写清楚为什么要学、学到哪就够、常见误区、建议时间。照着走,大约 3 到 4 个月可以先拿线 A 的成果去投自动化岗。
已有功能测试经验的同学,下一篇我会告诉你哪些可以跳过、哪些必须硬磕、怎么并行排期、简历怎么写。你有用例和缺陷的基础,这些不用推倒重来。
你觉得呢?
你目前想走线 A 还是线 B?卡在哪个阶段?评论区说,我帮你判断下一步该学什么。
给同样在转 AI测试路上摸索的同学转发一下。
关注测试员周周,14 年测试老兵,持续分享 AI测试实战经验。