news 2026/6/15 17:44:13

Meta:LLM预填充上下文缓存策略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Meta:LLM预填充上下文缓存策略

📖标题:Let’s (not) just put things in Context: Test-Time Training for Long-Context LLMs
🌐来源:arXiv, 2512.13898

🌟摘要

训练和架构策略的进展使 LLM 在上下文长度上具有数百万个标记。然而,经验证据表明,这种长上下文 LLM 可以比可以可靠地使用的文本消耗更多的文本。另一方面,已经表明,在涉及多步推理的具有挑战性的任务上,推理时间计算可用于扩展 LLM 的性能,通常是通过生成思维标记。通过对沙盒长上下文任务的受控实验,我们发现这种推理时间策略显示出快速递减的回报,并且在长上下文中失败。我们将这些失败归因于分数稀释,这是静态自注意力固有的现象。此外,我们表明当前的推理时间策略不能在一定条件下检索相关的长上下文信号。我们提出了仅查询测试时间训练 (qTTT),它通过对给定上下文的目标梯度更新,可证明克服了静态自注意力的局限性。我们发现,如何花费推理时间计算的简单转变会导致模型和长上下文基准的性能持续显着提高。qTTT 在 LongBench-v2 和 ZeroScrolls 基准的子集上平均导致 Qwen3-4B 的大量 12.6% 和 14.1% 点改进。结论是实用的:对于长上下文,少量特定于上下文的训练比当前推理时间缩放策略(如产生更多思考标记)更好地使用推理计算。

🛎️文章简介

🔸研究问题:如何有效利用推理时计算资源来改善长上下文的检索和推理能力?
🔸主要贡献:论文提出了一种新的测试时训练方法(qTTT),通过在长上下文任务中进行查询更新,显著提高了模型的性能。

📝重点思路

🔸引入查询仅测试时训练(qTTT),通过一次预填充缓存键值对(K/V),然后仅对查询投影进行轻量级梯度更新,从而减少了计算开销。
🔸利用实验分析验证了传统的推理时间计算策略在长上下文中的表现不佳,强调了qTTT的优势。
🔸通过设置受控的合成任务,深入研究了长上下文失败的原因,如“评分稀释”现象,并提出qTTT可以有效应对这一挑战。
🔸采用多种真实世界数据集(如ZeroScrolls和LongBench-v2)进行评估,覆盖多个任务和模型规模(1.7B到8B参数)。

🔎分析总结

🔸实验结果表明,qTTT在绝大多数测试场景下都能显著超越标准的推理解码和基于“思考”代币的策略,尤其是在代码理解和多文档问答等多跳推理任务中,性能提升超过20%。
🔸随着上下文长度的增加,传统方法在性能上呈现迅速下降的趋势,而qTTT则保持了较高的准确率,显示出其在长上下文处理上的有效性。
🔸在结构固定、不改变预训练和输入数据的情况下,qTTT成功提高了目标与干扰物之间的分离度,缓解了长上下文推理中的问题。
🔸qTTT方法相较于传统推理时间计算的思路具有更低的计算费用,同时提升了模型在长文档情境下的性能。

💡个人观点

论文的创新点在于高效的计算调整策略,通过单次填充来建立一个持久的上下文缓存,并进行针对性的查询调整,以优化长上下文的推理性能。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 5:37:27

深度学习框架目标检测算法YOLOV8预训练模型训练海上落水人员及障碍物数据集建立基于深度学习YOLOV8海上落水人员检测系统 海上搜救无人机 - 智慧海事监控平台

海上落水人员及障碍物数据集,有500多张并已经标注好了txt格式。已经划分hao训练集和验证集,可直接训练,【来源自建】 2类【溺水人员,障碍物】11海上落水人员及障碍物检测数据集 的完整 YOLOv8 训练与检测系统方案,包含…

作者头像 李华
网站建设 2026/6/15 12:18:52

springboot美容院管理系统(11523)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告)远程调试控屏包运行 三、技术介绍 Java…

作者头像 李华
网站建设 2026/6/15 8:26:44

轻量化深度学习模型(EEGNet)

EEGNet是一种专为脑电图(EEG)信号处理设计的紧凑型卷积神经网络(CNN),核心定位是在资源受限场景下实现高效的脑电信号分类,尤其适用于脑机接口(BCI)领域。与传统深度学习模型相比&am…

作者头像 李华
网站建设 2026/6/15 11:25:10

PySide6从0开始学习的笔记(十) 样式表(QSS)

PySide6 的样式表(Qt Style Sheets,QSS)是模仿 CSS 语法的界面美化机制,用于统一控制 PySide6 控件的外观,从基础的颜色、字体到复杂的控件状态、自定义控件样式都能覆盖。一、QSS 基础核心1.1 基本语法结构QSS 语法与…

作者头像 李华
网站建设 2026/6/15 12:19:01

超越`.groupby().agg()`:深度解析Pandas聚合API的现代实践

好的,收到您的需求。我将基于您提供的随机种子(1766095200066),深入探讨Pandas聚合API中一些进阶、高效且常被忽视的用法,撰写一篇适合开发者阅读的深度技术文章。 超越.groupby().agg():深度解析Pandas聚合…

作者头像 李华