news 2026/6/15 18:22:35

8、词嵌入与循环神经网络技术解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
8、词嵌入与循环神经网络技术解析

词嵌入与循环神经网络技术解析

1. 困惑度与语言模型基础

在语言模型中,对一个“示例”进行建模,本质上是为可能出现的下一个单词分配概率。因此,训练示例的数量等同于训练语料库中的单词数量。相较于讨论每个示例的平均损失,我们更关注每个单词的平均损失。为了更直观地衡量模型性能,我们不直接输出每个单词的平均损失,而是将其作为指数对自然常数 $e$ 进行幂运算。

对于一个包含 $|d|$ 个单词的语料库 $d$,若总损失为 $x_d$,则输出的公式为:
[f(d) = e^{\frac{x_d}{|d|}}]
这个值被称为语料库 $d$ 的困惑度。困惑度具有直观的意义,平均而言,预测下一个单词就相当于猜测具有相应面数的公平骰子的掷出结果。例如,如果语料库的词汇量大小为 10,000,且初始所有参数都接近零,那么第一个示例的 10,000 个对数几率(logits)均为零,所有概率均为 $10^{-4}$,此时困惑度恰好等于词汇量大小。

随着训练的进行,困惑度会逐渐降低。以一个词汇量约为 7,800 个单词的特定语料库为例,在使用约 106 个单词的训练集进行两个训练周期后,开发集的困惑度约为 180。在配备四个 CPU 的笔记本电脑上,每个周期的训练大约需要 3 分钟。

2. 改进前馈语言模型

提升语言模型性能有多种方法。例如,在之前的实践中,添加一个隐藏层(两层之间带有激活函数)能将 Mnist 数据集的识别准确率从 92% 提高到 98%。在当前的语言模型中,添加隐藏层可将开发集的困惑度从 180 降低到约 177。

不过,最直接有效的提升困惑度的方法是从二元语言模型过渡到三元语言模型。在之前的模型中,

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 11:04:20

15、无监督神经网络模型:VAE与GAN的深入剖析

无监督神经网络模型:VAE与GAN的深入剖析 1. 变分自编码器(VAE) 在处理图像数据时,我们希望尽可能缩小模型预测与实际图像之间的差异。如果能自由选择合适的均值()和标准差(σ),就能更精确地对特定图像进行建模,而图像损失会促使我们朝着这个方向优化。同时,我们也…

作者头像 李华
网站建设 2026/6/15 11:05:43

百度网盘秒传链接实战手册:高效转存与智能生成全攻略

还在为百度网盘大文件分享发愁吗?🤔 秒传链接技术让你彻底告别传统上传下载的烦恼!今天我们就来深度解析这个神奇工具的完整使用流程,让你成为秒传达人! 【免费下载链接】baidupan-rapidupload 百度网盘秒传链接转存/生…

作者头像 李华
网站建设 2026/6/15 11:03:09

X-AnyLabeling智能标注工具:从入门到精通的终极指南

X-AnyLabeling智能标注工具:从入门到精通的终极指南 【免费下载链接】X-AnyLabeling Effortless data labeling with AI support from Segment Anything and other awesome models. 项目地址: https://gitcode.com/gh_mirrors/xa/X-AnyLabeling 在计算机视觉…

作者头像 李华
网站建设 2026/6/15 11:05:16

DanmakuFactory:让弹幕转换变得轻松高效的专业工具

DanmakuFactory:让弹幕转换变得轻松高效的专业工具 【免费下载链接】DanmakuFactory 支持特殊弹幕的xml转ass格式转换工具 项目地址: https://gitcode.com/gh_mirrors/da/DanmakuFactory 在视频创作和直播互动日益流行的今天,弹幕已经成为观众表达…

作者头像 李华
网站建设 2026/6/15 9:57:37

Path of Building PoE2实战指南:7天从菜鸟到精通

Path of Building PoE2实战指南:7天从菜鸟到精通 【免费下载链接】PathOfBuilding-PoE2 项目地址: https://gitcode.com/GitHub_Trending/pa/PathOfBuilding-PoE2 Path of Building PoE2作为流放之路2社区最强大的离线构建规划工具,已经成为每个…

作者头像 李华
网站建设 2026/6/15 9:58:13

Bio_ClinicalBERT技术深度剖析:重塑医疗NLP的智能引擎

Bio_ClinicalBERT技术深度剖析:重塑医疗NLP的智能引擎 【免费下载链接】Bio_ClinicalBERT 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/Bio_ClinicalBERT 在医疗人工智能快速发展的今天,Bio_ClinicalBERT作为专为临床文本设计的预训…

作者头像 李华