收藏！小白程序员必看：轻松入门大模型核心概念（LLM、Token、Context、Prompt、Agent等）-编程实验室

本文详细介绍了大模型相关的核心概念，包括大语言模型（LLM）作为AI应用底层引擎的作用、Token作为模型基本处理单元的分词方法、Context如何实现模型的短期记忆、Prompt在指令输入中的重要性、Tool用于获取实时信息、MCP作为统一工具接入标准、以及Agent如何自主规划任务步骤。文章还探讨了Agent Skill如何封装常用操作，提升效率，适合想要了解大模型基础知识的小白和程序员学习收藏。

AI 热潮之下，LLM、MCP、Prompt、Agent 等新名词层出不穷。但你真的分得清它们各自的概念，以及彼此之间如何关联吗？

一、LLM（Large Language Model，大语言模型）

LLM即“大语言模型”，是当前各类AI应用的底层引擎。无论是聊天机器人、代码生成工具，还是智能写作助手，背后都运行着一个或多个大语言模型。目前，绝大多数LLM都基于Transformer架构构建（如下图所示）。

Transformer通过一种自注意力机制，让模型能够同时关注输入文本中的所有位置，从而更好地理解上下文关系，并且相对于RNN或LSTM架构，Transformer可以并行处理数据，大幅提升训练效率，从而能够处理更长的文本序列。

目前常见的LLM代表有：GPT、LLaMA、kimi、通义千问等等。

（Transformer架构图）

二、Token（词元）—大语言模型的基本处理单元

Token 是大语言模型理解和生成文本的最小原子单位。

由于计算机无法直接处理人类语言中的字符或单词，且神经网络只能处理数字，因此需要将原始文本转换成一系列数字，这个过程就是Tokenization（分词）。

但如何分词，是一个重大难点。如果按“单词”切分，词典会非常大（数百万词），且无法处理生词；如果按“字符”切分，虽然词典很小，但每个字符携带的信息太少，模型需要处理很长的序列才能理解一个单词，效率低。目前最主流的方案是子词切分（Subword Tokenization），即把常见单词保留为完整 Token，把罕见或未见过的单词拆成更小但仍有意义的子词组合。

例如：“unhappiness"可能被拆成"un”+“happiness"或"un”+“happi”+“ness”。

因此，大语言模型在语义转化过程中，是编码（文本 → Token ID）和解码（Token ID → 文本）过程。

以下面例子为例：

（1）原始文本：

“I love AI.”

（2）编码步骤：

①预处理：统一空格处理。文本变为：IĠloveĠAI.

②切分：

该文本被切分为：[“I”, “Ġlove”, “ĠAI”, “.”]

“I”(ID: 40)

“Ġlove”(ID: 1234) （注意开头的Ġ表示这是一个词的开头，而不是内部子词）

“ĠAI”(ID: 5678)

“.”(ID: 13)

③映射为 Token ID 序列：[40, 1234, 5678, 13]

③解码步骤：

模型输出一个概率分布，选择最高概率的 Token ID 序列[40, 1234, 5678, 13]，然后通过词汇表反查：

40→"I"

1234→"Ġlove"（Ġ在解码时通常会被还原为普通空格，得到" love"）

5678→"ĠAI"（解码为" AI"）

13→"."

最终解码回原始文本：“I love AI.”

注意：解码时 Ġ 符号被转换为空格，所以 “I” 后直接跟空格 + “love”。这是许多 BPE 编码器的约定。

目前，绝大部分厂商出售的API也就是Token的使用统计，平均来讲，一个Token大概相当于0.75个英文单词或者1.5个汉字，因此，在处理大的文本时，半天内能使用几百万Token就不足为奇了。

三、Context（上下文）

在理解了Context和Token后，你在使用AI时肯定会好奇，它为什么能够记得住你前文内容，仿佛有记忆一样，这就引入了一个概念Context（上下文）。Context 是模型在处理当前 Token 时所能“看到”的所有先前 Token 的总和，它相当于模型的短期工作记忆，决定了模型理解当前输入所依赖的信息范围。

LLM 本身是无状态的——每次推理时，模型只根据当前输入的 Token 序列计算输出，并不会自动“记住”之前的对话。要让模型产生连贯的多轮对话或长文档理解，就需要把之前的交互历史或文档内容不断拼接到新的输入中。这个拼接起来的完整 Token 序列，就是模型在该次推理中的 Context。

例如，在元宝中，你发送“我叫小明”，模型回复“你好，小明”。然后你问“我的名字是什么？”，客户端并不会只发送“我的名字是什么？”，而是会把上一轮的用户输入和模型回复也一起打包成新的 Context：

text

用户：我叫小明助手：你好，小明用户：我的名字是什么？

模型看到整个 Context 后，才知道“我的名字”指的是“小明”。如果没有之前的对话历史，模型就无法正确回答。

Context 长度以 Token 数为单位：Context 越长，包含的 Token 数量越多。每次推理时，模型需要处理所有这些 Token。在一次 API 调用中，你发送的所有内容（包括系统提示、历史对话、用户当前输入等）的 Token 数之和，就是本次使用的 Context 长度。为了让模型知道 Token 的顺序，每个 Token 在 Context 中都带有位置信息。Transformer 通过位置编码（或相对位置偏置）来区分“第一个词”和“最后一个词”。

所有 LLM 都有一个硬性上限，称为上下文窗口（Context Window）。例如：

模型	上下文窗口（Token 数）
GPT-3.5 (早期)	4,096
GPT-4 (8K)	8,192
GPT-4 Turbo	128,000
Claude 3	200,000
Gemini 1.5 Pro	2,000,000

模型无法处理超过窗口长度的输入，超出后会截断最早的部分（如对话开头的几轮），或者对长文档进行切片、分块处理。

因此，长context也伴随着以下问题：

①显存与计算成本：Transformer 的自注意力机制计算复杂度与 Context 长度的平方成正比（O(n²)）。Context 越长，推理越慢、越贵，这也是为什么长上下文模型需要采用稀疏注意力等技术。

②“中间丢失”现象：研究表明，LLM 对长 Context 中间部分的信息 recall 能力较弱，而更擅长记住开头和结尾。

目前解决以上问题的方法主要有：

①检索增强生成（RAG）：当文档总长度远超上下文窗口时（如 100 万字的书籍），不可能全部塞进 Context。RAG 的做法是先检索与当前问题最相关的几个片段，只把这些片段放入 Context，而不是放全文。

②主动压缩：一些高级用法会对对话历史进行摘要，用摘要 Token 替代原始的多轮对话，从而压缩 Context 长度。

四、Prompt（提示词）

Prompt 就是你输入给 LLM 的那段指令或问题，用来告诉模型你想要什么。例如：“请解释什么是区块链”。

为了提升大模型工作效率，好的prompt是必须的，换句话说，给别人讲述一件事情要想得到更高效的反馈，就得自己先把话讲的清晰明了。

五、Tool（工具）

大语言模型本质上还是基于数据库来训练的，因此要想获得实时信息，需要引入Tool，也就是外部工具。比如我想要获取今天的天气信息，但是模型的数据集只到25年，因此我需要给LLM接入天气预报查询工具才能获取最新的天气信息。

Tool 本质上是一个封装了特定功能的可调用函数，接收输入参数，执行操作（如查天气、算数学、发邮件），返回结果，LLM 本身不具备实时数据获取或外部动作能力，但通过调用 Tool 就能突破训练数据的局限。

六、MCP（统一的工具接入标准）

由于不同 LLM 接入 Tool 的协议标准各不相同——比如 GPT 有一套自己的标准，DeepSeek 也有另一套标准，工具开发者如果为每个模型单独适配，工作量会很大。为了解决这一问题，业界引入了 MCP（模型上下文协议），作为统一的工具接入标准。

在实际落地中，遵循 MCP 标准的工具通常会集中部署在某个 MCP 服务器（平台）上。只要某个 LLM 支持 MCP 协议，它就能直接调用该服务器上所有已集成的工具，无需为每个工具单独写适配代码。

七、Agent（智能体）

在 LLM 调用 Tool 的过程中，会遇到一个实际问题：完成一个复杂任务往往需要多次、按顺序或根据中间结果动态地调用多个工具。例如，“查天气 → 如果下雨就推荐室内活动 → 把结果发到邮箱”就需要依次调用天气查询工具、活动推荐工具、邮件发送工具。如果每次都靠人工手动触发，显然不现实。为此，引入了 Agent 概念。

Agent 是一个能够自主规划任务步骤、决策何时调用哪个工具、并根据工具返回结果继续行动的程序。它把 LLM 作为“大脑”，让 LLM 输出下一步该做什么（例如“调用天气API”、“调用邮件API”），然后 Agent 执行这些动作，并把执行结果再次喂给 LLM，循环往复，直到完成用户目标。

八、Agent Skill

每个人都有自己的习惯，比如我早上可能习惯起来看下当天热点新闻。如果使用一个通用 Agent，每次都需要说“帮我查一下今天的头条新闻”，重复多次就会很繁琐。Agent Skill 就是为了让 Agent 学习并记住用户的个性化行为模式而设计的功能模块。

简单来说，Agent Skill 是预定义好的一系列提示词、工具调用流程和默认参数的组合文档，允许用户将“一个常用的多步骤操作”封装成一个“技能”，之后只需说一个简单的指令（如“早安”）就能触发整个流程。

相比于普通 Prompt 每次都要写完整指令，Agent Skill 可以复用，且能包含多个步骤（先查天气、再读新闻、最后播报）。

Agent 内部会维护一个 Skill 注册表，用户需要在自己使用的Agent上加载进去，然后在用户说出触发词时，Agent 直接加载该 Skill并输出想要的信息。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。