专栏:大模型应用开发:从原理到生产
篇号:08
建议标签:大模型、推理、Token、Transformer、AIGC
你在聊天框里输入一句话,按下回车。
几百毫秒后,模型开始输出。它不是整段答案一次性跳出来,而是一个字、一个词、一个片段慢慢冒出来。
很多人会把这个过程想象成:
模型先在内部“想好”完整答案,然后再把答案打出来。
但真实机制不是这样。
生成式大模型的推理过程,更像一台高速运转的概率机器:
给定当前上下文,计算下一个 Token 的概率,选出一个 Token,拼回上下文,再继续计算下一个 Token。
这一点非常重要。
你理解了它,就会理解很多工程现象:
- 为什么输出越长,等待越久。
- 为什么流式输出看起来像“边想边说”。
- 为什么温度调高后答案更发散。
- 为什么同一个问题有时会得到不同答案。
- 为什么上下文越长,成本和延迟越容易上升。
- 为什么 KV Cache 会成为推理加速的关键。
这篇文章就拆开这条链路。
从用户输入一句话开始,一直追到模型选出下一个 Token,再继续循环生成完整答案。