news 2026/5/1 3:42:47

nn.layernorm的认识

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
nn.layernorm的认识

LayerNorm — PyTorch 2.9 documentation

layernorm不是对通道进行归一化。而是对选定维度进行归一化。被选定的维度作为一个整体,计算出方差和均值然后进行对被选定维度进行归一化。

(整体归一化的意思就是,如果把[C, H, W]作为归一化维度,那么C*H*W 个元素来进行计算均值和方差,然后进行归一化。)

它的主要作用是将每层特征输入到激活函数之前进行标准化,使其转换为均值为0,方差为1的数据,从而避免数据落在激活函数的饱和区,减少梯度消失的问题。

LayerNorm 可以应用于神经网络的任何层,包括卷积层和循环层,通常放在激活函数之前。

Q:为什么公式是这样,而不是直接除以总和呢?

A:以前的归一化是x_i' = x_i / sum(x) ,即让所有元素综合为1.这种主要应用于生成概率分布,注意力权重等。而深度学习中的归一化,目标是为了 调整数据的整体分布,使其更加稳定(均值为0,标准差为1),其主要是为了

稳定神经网络训练、加速收敛、防止梯度问题

Q:layernorm归一化之后若不进行缩放偏移,则均值为0,标准差为1.这有什么意义呢,能确定它的范围吗?

pytorch中有个很神奇的规则就是: 如果写成layerNorm(dim) 其中dim是整数,则默认对最后一个维度进行归一化。

PyTorch 的底层规则:根据 PyTorch 的设计,当normalized_shape是一个整数时,它会被自动解释为一个仅包含该整数的列表,即normalized_shape = [dim]。这个列表指明了要对输入张量的最后len(normalized_shape)个维度进行归一化。

参考:

LayerNorm在CV与NLP中的应用与实现-CSDN博客

标准正态分布_百度百科

10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNormNormalization技术 - 掘金

Build Better Deep Learning Models with Batch and Layer Normalization | Pinecone

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:27:46

5、VXLAN与BGP EVPN的融合:数据中心网络的优化方案

VXLAN与BGP EVPN的融合:数据中心网络的优化方案1. VXLAN的优势与不足在当今的数据中心环境中,支持软件和硬件VTEP(虚拟隧道端点)的混合环境已成为常态。VXLAN(虚拟可扩展局域网)为解决网络扩展性差、增强网…

作者头像 李华
网站建设 2026/5/1 9:38:41

11、数据中心网络底层路由与多播流量处理解析

数据中心网络底层路由与多播流量处理解析1. 网络维护时的隔离操作在网络维护或其他可能造成干扰的操作期间,可通过关闭与网络虚拟边缘(NVE)或虚拟隧道端点(VTEP)关联的第一个环回接口,从底层路由的角度隔离…

作者头像 李华
网站建设 2026/5/1 6:25:21

前端项目打包详细,零基础入门到精通,收藏这篇就够了

项目打包命令为:npm run build 打包后会文件夹中自动生成一个dist文件 这个文件就是最终上传服务器的文件(或者将这个dist给后端) dist中的index打开是本地看不见什么的。如果想查看项目 ---- 1.在config目录中找到index。js build: { // …

作者头像 李华
网站建设 2026/5/1 8:42:09

2026趋势展望:DSL模型能力将成为AI数据分析可用性的关键

结合过去几年我们对前沿趋势的关注,以及从服务客户的一线获取的一手信息,我们展望了2026年数据分析的十大趋势,并将逐一展开解读。 趋势一:Data Agent开始规模化兑现价值 趋势二:AI数据分析迎来多智能体(…

作者头像 李华
网站建设 2026/4/22 2:35:55

Python+Vue的多彩吉安红色旅游网站 Pycharm django flask

这里写目录标题项目介绍项目展示详细视频演示感兴趣的可以先收藏起来,还有大家在毕设选题(免费咨询指导选题),项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人技术栈文章下方名片联系我即可~解决的思路…

作者头像 李华
网站建设 2026/4/28 1:41:26

JG/T 210-2018 建筑内外墙用底漆检测

建筑内外墙用底漆是指在涂饰工程涂装时,直接施涂于建筑物内外墙水泥砂浆基材、腻子层或其他基层材料的涂料 。JG/T 210-2018 建筑内外墙用底漆测试项目:测试项目测试方法容器中状态JG/T 210施工性JG/T 210低温稳定性GB/T 9286涂膜外观JG/T 210干燥时间GB…

作者头像 李华