news 2026/6/15 19:38:18

LLM生成文本每次是把之前所有的token都输入,还是只输入上一个token?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM生成文本每次是把之前所有的token都输入,还是只输入上一个token?

LLM生成文本时,是自回归地生成。那每次是把之前所有的token都输入,还是只输入上一个token?

答:在逻辑层面上,是输入“之前所有的token”;但在物理运算层面,我们通过一种技术手段避免了重复计算。

1. 逻辑层面:为什么需要“全量输入”?

LLM(如 GPT 系列)基于Transformer Decoder架构。为了预测下一个词,模型必须理解上文的语境。

如果只输入“上一个 token”,模型就像一个只有极短记忆的人,它知道当前的词,但不知道之前的逻辑。例如:

  • 上文:“巴黎是法国的…”
  • 当前输入:“的”
  • 逻辑:模型需要看到“巴黎”、“是”、“法国”才能准确预测出“首都”。

因此,在自回归生成(Autoregressive Generation)的定义中,每一步生成的概率公式如下:

P ( x t ∣ x 1 , x 2 , . . . , x t − 1 ) P(x_t | x_1, x_2, ..., x_{t-1})P(xtx1,x2,...,xt1)

这代表第t tt个词的产生,取决于前面所有词的序列。


2. 物理层面:KV Cache(键值缓存)技术

虽然逻辑上需要全量信息,但如果每次都把成千上万个词重新通过模型计算一遍,效率会极其低下(计算量呈平方级增长)。

为了解决这个问题,现代 LLM 使用了KV Cache技术:

  • 只“计算”最新 Token:实际上,每一轮推理中,只有最新生成的那个 token 会经过完整的神经网络计算。
  • 缓存旧信息:之前所有 token 的计算结果(具体为 Attention 机制中的 Key 和 Value 向量)已经存在显存里了。
  • 拼接与注意力:模型通过将“新生成的 KV”与“缓存的旧 KV”进行拼接,让新 token 能够与历史信息产生“注意力(Attention)”连接,从而得出预测结果。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/2 22:32:43

越疆科技转化应用调研考察解读-万祥军| 国研智库·中国国政研究

越疆科技转化应用调研考察解读-万祥军| 国研智库中国国政研究“近年来,随着全球新一轮科技革命和产业变革深入发展,机器人技术作为智能制造的核心装备,正加速向各行业渗透融合。”调研考察中国际科学院组织代表兼国际科学院委员会执委万祥军解…

作者头像 李华
网站建设 2026/6/15 13:39:40

基于STM32 的老人跌倒监测系统设计与实现

目录 STM32 老人跌倒监测系统概述硬件设计软件设计关键代码示例(STM32 HAL库)系统优化方向应用场景 源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! STM32 老人跌倒监测系统概述 该系统利用STM32微控制器作为核…

作者头像 李华
网站建设 2026/6/15 11:30:56

网络运维与网络安全 阶段一 基础篇十七

弹性交换网络2026.1.251、Trunk原理与配置2、Eth-Trunk原理3、手工模式 Eth-trunk一、vlan接口类型1、access接口复习之前学过的知识案例一pc1和pc2加入vlan10,pc3和pc4加入vlan20命令查看vlan表access接口的应用场景?一般是交换机接口连接主机或者终端服…

作者头像 李华
网站建设 2026/6/15 11:38:43

LangChain、LangFlow、LangGraph:大模型应用开发框架全解析

本文详细解析了LangChain生态中的三大框架:LangChain作为LLM应用的基础框架,提供系统化组织能力;LangFlow是基于LangChain的可视化低代码工具,降低使用门槛;LangGraph则为复杂Agent提供状态机控制。三者定位不同&#…

作者头像 李华
网站建设 2026/6/15 11:38:17

数组(二)

一、二维数组的创建 1、二维数组的定义 type arr_name[常量值 1][常量值 2]; 2、二维数组的创建 例如: int arr[3][5]; double score[2][10]; 解释: 3表示数组有3行, 5表示每一行有5个元素, int表示数组的每个元素是整型类型, arr是数组名,可…

作者头像 李华