news 2026/6/24 5:34:45

Ntk-aware 插值

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Ntk-aware 插值
1 引言

文章链接:https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/

位置插值(Position Interpolation, PI)[1] 是拓展旋转位置编码(Rotary Position Embedding,RoPE)[2] 大模型上下文窗口的基础方案,但全局统一压缩位置索引会丢失高频维度的细粒度位置信息,短文本生成效果大幅衰减。NTK-aware[3] 插值针对该痛点做优化,通过调整 RoPE[2] 基底实现频率分层处理,高频近似外推、低频等价插值,无需改动模型结构,仅调整超参就能平衡长短文本性能,落地门槛极低。下文完整讲解 NTK-aware[3] 的推导逻辑、缩放规律与实际应用优劣。

2 NTK-aware

RoPE[2] 回顾:Roformer: Enhanced transformer with rotary position embedding-CSDN博客

对位置索引为 p 的嵌入向量在复数域应用的旋转变换为:

其中是一个常数(通常取 10000),d 为输入特征的维度,,则周期 T 为:

随着 i 的增加,三角函数周期 T 呈现单调递增趋势,而频率则相应单调递减。因此,低维可视为高频维度,高维则为低频维度。值得注意的是,采用 PI[1] 方法会导致高频维度变得过于密集。为此,NTK-aware[3] 策略不同于 PI[1] 对所有维度的均匀缩放,而是采取了差异化处理:减少对高频区域的缩放,同时增加对低频区域的缩放,即实现高频外推与低频内插的平衡。

引入一个系数可以获得这样的变换,为使最低频项和 PI[1] 一致,有:

解得:

其中 k 为目标上下文窗口大小与预训练上下文窗口大小的比值。则频率向量freqs可以计算为:

则有:

可以计算出等效缩放倍数

随着 i 的增加,呈现单调递增趋势。

当 i 接近0 时,接近1,几乎不压缩,纯外推,等效窗口放大 k 倍,无任何收缩。

随着 i 的增加增大,压缩程度增大,但仍小于 k,减少了对高频区域的缩放,同时增加了对低频区域的缩放。

当 i 接近时,接近 k,此时和 PI[1] 几乎等价。

因此,NTK-aware[3] 巧妙地将外推和内插方法融为一体。

3 总结

本文系统梳理了 NTK-aware[3] 插值的设计动机、数学推导与分层缩放逻辑。作为线性位置插值 PI[1] 的优化方案,NTK-aware[3] 精准解决了 PI[1] 全局统一压缩带来的高频位置分辨率丢失问题:基于 RoPE[2] 高低频维度预训练充分程度不同的特性,通过调整旋转基底实现差异化缩放,高频维度等效近乎无压缩外推、低频维度效果与 PI[1] 完全对齐,将外推与插值两种策略融合在一套公式中。从等效缩放倍率规律能够看出,维度下标越小、频率越高,压缩力度越弱;仅最低频区间才达到和 PI[1] 一致的缩放倍数 k。该方案无需修改模型主干结构,仅调整 RoPE[2] 基底超参即可部署,轻度扩长上下文时甚至无需微调,大幅平衡长文本建模与短句生成质量。但 NTK-aware[3] 仍存在局限:全局统一基底调整无法精细区分中间频段,超大扩展倍数下长距离检索效果会出现衰减,后续 NTK-by-parts [4]、YaRN[5] 等分段优化方案也正是针对该短板进一步迭代。整体而言,NTK-aware[3] 兼顾理论简洁性与工程易用性,是本地部署开源大模型拓展上下文的经典实用方案。

参考文献

[1] Chen S, Wong S, Chen L, et al. Extending context window of large language models via positional interpolation[J]. arXiv preprint arXiv:2306.15595, 2023.

[2] Su J, Ahmed M, Lu Y, et al. Roformer: Enhanced transformer with rotary position embedding[J]. Neurocomputing, 2024, 568: 127063.

[3] Peng B, Quesnelle J. Ntk-aware scaled rope allows llama models to have extended (8k+) context size without any fine-tuning and minimal perplexity degradation[EB/OL].(2023)

[4] bloc97. Add NTK-Aware interpolation "by parts" correction, 2023. URL https://github. com/jquesnelle/scaled-rope/pull/1.

[5] Peng B, Quesnelle J, Fan H, et al. Yarn: Efficient context window extension of large language models[C]//International Conference on Learning Representations. 2024, 2024: 31932-31951.

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/24 5:34:19

裂变活动 K 因子测算

K因子应用场景行业裂变玩法互联网 / 移动 App邀请得会员 / 积分电子商务(B2C / 跨境 / 社交电商)邀请有礼拼团新人专享券(需老客分享)游戏(手游 / 网游)邀请送道具 / 皮肤 / 体力K 因子常与:次留…

作者头像 李华
网站建设 2026/6/24 5:27:49

2026年企业私有大模型方案:训练、推理、部署全链路解析

本文目录:一、企业大模型为什么必须走向私有化?二、企业私有化大模型部署面临哪些实际困难?三、训练、推理、部署全链路如何实现?四、中关村科金企业训推平台具备哪些核心能力?五、企业私有化大模型部署需要经过哪些步…

作者头像 李华
网站建设 2026/6/24 5:26:17

Pikachu——url重定向

url重定向是一种将网站访问者从一个 URL 转移到另一个 URL 的 Web 服务器技术。当用户访问其浏览器中的某个 URL 时,服务器会发回一条消息,告诉浏览器改为访问其他 URL。第二个 URL 可以在同一个域上,也可以在不同的域上。(旧的ur…

作者头像 李华
网站建设 2026/6/24 5:25:06

房屋转租纠纷落地评测,实地验证魔珐星云数字人法务输出水准

魔珐星云法务数字人|房屋转租法律科普赛道实测落地评测 一、项目背景 国内住房租赁市场体量持续扩张,行业快速发展的同时各类租房民事矛盾集中爆发,二房东恶意扣费、私自转租房屋、无故扣押租房押金等纠纷案件逐年递增,租客维权…

作者头像 李华
网站建设 2026/6/24 5:18:32

流体-结构耦合与声子亚表面在湍流减阻中的应用

1. 流体-结构耦合基础与声子亚表面设计原理流体-结构耦合(FSI)现象在工程应用中无处不在,从飞机机翼颤振到血管血流动力学均涉及这一复杂相互作用。当湍流边界层遇到具有特定动力学特性的固体表面时,会产生独特的双向能量交换机制…

作者头像 李华
网站建设 2026/6/24 5:17:06

伪装目标检测模型W4A4量化实战:TDQ策略实现极致压缩与高效部署

1. 项目概述:当伪装目标检测遇上极致量化在计算机视觉的众多任务里,伪装目标检测(Camouflaged Object Detection, COD)一直是个“老大难”问题。它不像常规目标检测那样,目标轮廓清晰、与背景对比鲜明。COD的目标&…

作者头像 李华