news 2026/5/1 11:47:22

大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。
BPE 结束后,模型拿到的已经是整数序列(token id),下一跳直接就是nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:

  1. 文本 → BPE 分词 → [token₁, token₂, …]
  2. token → 查表(vocab_size × hidden_dim 的矩阵)→ [e₁, e₂, …]
  3. 后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导里出现(维度 = vocab_size,1 个 1 其余 0),用来写公式
output = one_hot @ Embedding_matrix
实际代码里直接用embedding(idx)查表,效率更高、内存更省。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:27:13

基于PLC的自动饲喂系统设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于PLC的自动饲喂系统设计(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码本设计资料包含设计说明书、仿真工程、任务书、开题报告、中期检查、结题报告、设计图纸 (一)目标:要求学生以西门子PLC为主要控制器件完成自动饲喂系…

作者头像 李华
网站建设 2026/5/1 9:48:22

基于PLC的生产线搬运机器人的机械手控制系统【程序与文档】(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于PLC的生产线搬运机器人的机械手控制系统【程序与文档】(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码 本次设计主要采用的是顺序控制的思路,系统在确认好上一步完成的基础上再进入下一步,然后逐步…

作者头像 李华
网站建设 2026/5/1 6:27:51

AI科学家Kosmos:数小时完成数月科研,引发行业热议

人工智能能够处理大量数据,但它能做科学吗?一种AI科学家可以独立工作数小时,完成人类需要数月才能完成的研究,并且据其创造者称,已经在科学领域做出了多项“新颖贡献”,但其他人对此则更加怀疑。 该系统名…

作者头像 李华
网站建设 2026/4/26 15:12:15

电梯升降的PLC控制

3可编程控制器的机型选择 3.1可编程控制器控制系统的I/O点数估算 3.1.1控制电磁阀等所需的I/O点数 有电磁阀的动作原理可知,一个单线圈电磁阀用可编程控制器时需两个输入及一个输出;一个双线圈电磁阀需三个输入及两个输出;一个比例式电磁阀需…

作者头像 李华
网站建设 2026/5/1 7:34:47

Java计算机毕设之基于springboot的智能果园数字化管理领航系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华