news 2026/6/15 19:48:50

面试-Decoder-Only生成模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面试-Decoder-Only生成模型

1 背景

Decoder-Only 模型(如 GPT 系列、Llama)的工作原理是“根据上下文预测下一个字” 。这种 “递归”的特性导致了必须将推理过程拆分为两个截然不同的阶段。

  • 输入:整个历史序列。

  • 输出:下一个 Token。

  • 循环:预测出的 Token 会被拼接到输入中,作为下一次计算的输入。

Q1 为什么会分为两个截然不同的阶段?
维度Prefill 阶段 (预填充)Decode 阶段 (解码)
任务目标处理用户输入的 Prompt(提示词)。逐个生成新的 Token。
计算特征并行计算。一次性把用户输入的 N 个词全部喂给模型。串行计算。一次只处理一个词,算完才能算下一个。
计算强度计算密集型 (Compute-bound)。矩阵维度大,GPU 算力被充分利用。访存密集型 (Memory-bound)。矩阵维度极小(向量),大部分时间花在从显存搬运权重上。
核心瓶颈GPU 的峰值算力(TFLOPS)。显存带宽 (Memory Bandwidth)。
关键指标TTFT(Time to First Token,首字延迟)。TPOT(Time Per Output Token,单字生成速度)。

看图 1 中 Iter 2 和 Iter 3 的虚线框,你会发现它们只处理新生成的词。为什么不需要重新计算之前的“I think this”?

  • 背景:在 Attention 计算中,每一个词都需要和之

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:17:11

【简单小项目】从零用C语言实现贪吃蛇

前言:贪吃蛇这个小游戏很适合将前面我们学习到的C语言知识和数据结构中的链表做个总复习并实践,所以本文将带领大家逐步实现贪吃蛇游戏,并学习一些实现这个小游戏所必须掌握的前置知识(win32) 1.小游戏展示 游戏界面&…

作者头像 李华
网站建设 2026/6/15 12:24:33

基于开源AI大模型S2B2C商城系统的无人店铺售卖难点解决方案研究

摘要:本文聚焦无人店铺售卖过程中面临的客户与商品识别、交易判断、商品识别与支付流程等难点,深入探讨人工智能视觉技术结合开源AI大模型S2B2C商城系统在解决这些难题中的应用。通过分析该系统在客户画像构建、商品管理、交易监控及支付流程优化等方面的…

作者头像 李华
网站建设 2026/6/15 12:19:10

未来之窗昭和仙君(六十三)可编程子窗口操作功能—东方仙盟练气期

可编程子窗口操作功能说明书 cyberwin_fairyalliance_webquery 未来之窗昭和仙君 一、功能概述 本功能提供了一系列方法用于操作元素的子节点,特别是针对 iframe 元素的处理,能够获取元素的所有子节点(包括文本节点、注释节点、iframe 内容…

作者头像 李华
网站建设 2026/6/15 14:23:41

Linux驱动学习笔记:SPI子系统中的内核线程初始化

进入(KWorker_Thread) 来源:SPI 子系统的标准机制。在 __spi_sync -> __spi_queued_transfer 内部,代码会将消息挂入队列,并无条件地唤醒后台工作线程 (kthread_queue_work)。时机:虽然用户线程已经开始…

作者头像 李华
网站建设 2026/6/15 16:01:58

Flutter for OpenHarmony:从零开始认识基础组件

Flutter for OpenHarmony:从零开始认识基础组件 作者:灰灰勇闯IT 时间:2026年1月 适用环境:OpenHarmony 4.0 Flutter for OpenHarmony SDK 本文目标:帮助初学者快速掌握在 OpenHarmony 上使用 Flutter 构建 UI 的核心…

作者头像 李华