news 2026/6/15 17:16:01

ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

每个参数大约对应 20 个 token(常被叫作Chinchilla 比例)并不是一条“宇宙定律”。

你看到LLaMA 系列的 token/参数 比值远大于 20,核心原因是:他们优化的目标、约束条件、以及用来拟合的“最优前沿(frontier)”都变了

尤其从 Llama 3 开始,论文里甚至明确承认:小模型会被“刻意训练得比 compute-optimal 更久”,因为这样在同等推理成本(inference budget)下更强

一、先把“20”从哪来讲清楚:它来自 Chinchilla 论文的 compute-optimal 前沿

Chinchilla(Hoffmann et al., 2022 / 2203.15556)要解的问题是:

在固定训练计算量(FLOPs 预算)下,参数量和训练 token 数怎么分配,才能让 loss 最小?

论文里把训练计算量近似写成(文中用 FLOPs 估算;常见近似形式之一是与N ⋅

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 17:50:55

开题报告-二手车交易网站的设计与实现

目录 研究背景研究目标功能模块设计技术实现方案创新点预期成果 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 研究背景 二手车交易市场规模逐年扩大,但传统交易模式存在信息不对称、交易效…

作者头像 李华
网站建设 2026/6/15 13:19:17

开题报告-基于Java的停车场管理系统的设计与实现

目录 研究背景与意义系统功能概述技术选型创新点与特色预期成果 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 研究背景与意义 随着城市化进程加快,机动车数量激增,传统停车场管…

作者头像 李华
网站建设 2026/6/15 14:46:24

Vue3如何融合TS

Vue3 对 TS 的适配是全方位的&#xff0c;从组件定义、Props 声明到响应式数据、生命周期等都有专门的 TS 语法&#xff0c;下面我会按开发中最常用的场景逐一讲解&#xff1a; 一、基础&#xff1a;组件的 TS 写法&#xff08;setup 语法糖&#xff09; Vue3 推荐使用 <s…

作者头像 李华
网站建设 2026/6/6 4:38:54

AI在企业并购估值中的应用与挑战

AI在企业并购估值中的应用与挑战 关键词:AI、企业并购估值、机器学习、数据驱动、应用挑战 摘要:本文深入探讨了AI在企业并购估值领域的应用与挑战。首先介绍了研究的背景、目的、预期读者和文档结构,明确了相关术语。接着阐述了AI与企业并购估值的核心概念及其联系,通过示…

作者头像 李华
网站建设 2026/6/15 13:40:21

《速看!提示工程架构师带你探索提示工程在新兴技术的应用奥秘》

《提示工程不是玄学&#xff1a;架构师带你拆解它在新兴技术里的实战奥秘》 备选标题 《提示工程架构师亲授&#xff1a;新兴技术中的prompt设计“底层逻辑”》《从Agent到AIGC&#xff1a;提示工程在AI新兴技术里的正确打开方式》《别再乱试prompt&#xff01;看提示工程如何…

作者头像 李华