news 2026/5/1 10:39:26

群等变自注意力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
群等变自注意力

原文:towardsdatascience.com/group-equivariant-self-attention-19e47f0b786e

在不断发展的神经网络架构动态景观中,效率至关重要。为特定任务定制网络需要通过战略性的架构调整来注入先验知识。这不仅仅是参数调整——这是将所需理解嵌入到模型中的过程。实现这一目标的一种方法是通过使用几何先验——这正是本文的主题。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9013f7d9580395d4386d4852bf9d9a80.png

一张在 90 度旋转下的狗的图片。中间我们看到具有旋转等变的模型的权重表示,而右侧的模型没有这种等变。©J. Hatzky

前置条件

在前一篇文章中我们探讨了视觉中的自注意力操作。现在让我们在此基础上构建,并通过使用几何深度学习的最新进展来扩展它。

如果你还不熟悉几何深度学习,迈克尔·布朗斯坦创建了一个优秀的入门系列。

群等变模型的好处

等变模型可以将搜索空间定制为当前任务,并减少模型学习虚假关系的概率。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/449467fb18782be2a530757ba928f5a4.png

在 90 度旋转下的癌细胞。中间我们看到具有旋转等变的模型的权重表示,而右侧的模型没有这种等变。©J. Hatzky

以这个癌细胞为例看看。如果我们假设模型具有旋转等变,那么模型对这个细胞图像的表示只会随着图像旋转,但保持其结构完整。而如果没有这种等变,模型的表示几乎会任意变化,因此在一个方向上看起来像癌细胞,当旋转时可能会看起来完全不同。显然,这并不是我们想要用于检测特定细胞类型的任务。我们真正想要的是一个理解这种旋转对称性的等变模型,因此不受旋转或其他输入变换的影响。

几何模型的蓝图

当将几何先验集成到深度学习架构中时,一种常见的方法涉及一系列系统的步骤。最初,网络的层被扩展以与目标几何群(如旋转)对齐,从而产生我们所说的G-等变层。这种适应确保网络捕捉并尊重数据中固有的特定几何特征。

在整个过程中,可以战略性地应用局部池化技术来管理和简化网络复杂性,尤其是如果减小尺寸被认为是有益的。引入池化操作有助于关注关键特征,同时保持网络识别几何细微差别的能力。

最终,该架构旨在在所选几何群的变换下表现出不变性。为了实现这一点,在最后执行对群维度的全局池化操作。这一步骤确保网络学习到的表示在应用几何变换时保持一致和可靠。

实质上,这种方法围绕调整网络的内部工作方式以适应不同的几何特性,采用池化策略进行复杂性控制,最终形成一个在指定几何群内变换时保持不变性的网络。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9a0b6de24f32d4d15eebe96774af1f49.png

几何深度学习架构的一个示例。结合了等变层,并在其中可能进行局部池化,最后进行全局池化以在群作用下创建不变性。©J. Hatzky

群等变卷积神经网络(G-CNNs)

G-CNNs 首次亮相于 2016 年,标志着神经网络架构领域的一项重大进步。其理念是在 CNN 的卷积核上应用群变换。基本上,包括两个操作,称为提升和群卷积。

提升卷积的概念涉及取一个图像并将其提升到所选群的维度。让我们用一个具有 90 度旋转的群作为例子来进一步分解。

这是如何工作的:想象我们的群由旋转组成,我们希望将核提升到这个群的维度。我们通过将核旋转四次来实现这一点,对应于 90 度旋转群中的四个不同方向。

随后,我们将这四个提升核应用到同一图像上。结果是四个变换后的图像,每个对应于核的一个旋转版本。这个过程有效地捕捉了卷积操作中组变换的本质,使网络能够理解和从输入数据的不同方向中学习。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/83f041c31b6034b5bb94dd8a543e5e65.png

提升卷积。我们创建提升版本的卷积核。在这种情况下,是在 90 度旋转群 C4 下的旋转。然后我们用每个核对输入图像进行卷积。©J. Hatzky

在进行提升卷积之后,我们现在有一组四个卷积图像。如果我们想应用进一步的卷积,我们必须对所有的四个变换进行操作,而不仅仅是单个输入图像。为此,我们使用分组卷积层。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4728c1fcce59415e04fd4bea811d0096.png

分组卷积。类似于提升卷积,我们在组上创建位置索引。进一步地,我们取和以保持维度。©J. Hatzky

如您所见,我们也在组维度上取和,以保持维度恒定。最后,我们进行全局池化,使我们的卷积操作在组作用下保持不变。

分组等变 Transformer

在考虑了分组等变卷积的概念后,我们现在可以将相同的直觉转移到构建分组等变自注意力。截至此时,许多深度学习架构已经有了分组等变的对应物。

最近,这种情况也适用于 Transformer 模型,更具体地说,是 Transformer 模型的引擎——自注意力操作。

在其初始形式中,自注意力,由于缺乏位置信息,表现出排列等变性。用简单的话说,输入的排列会导致输出的相应排列。这种内在属性非常灵活,可以轻松地适应旋转、平移、翻转和其他保持对称性的动作,作为排列的特殊情况。然而,这种广泛的等变性虽然强大,但对于许多任务来说往往过于通用,尤其是在位置感细腻时。

为了解决这一限制,将位置信息引入模型已成为标准做法。有趣的是,当引入绝对位置信息时,模型会放弃其等变性属性。这是因为每个位置上的每个输入都变得独特,破坏了所需的对称性。相反,利用相对位置可以恢复平移等变性,因为当位置移动时,相对方向保持不变。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cb94cb93eda0e92971f512322ad851e0.png

关于位置编码形式的等变性层次结构的部分有序群。©J. Hatzky

因此,我们想要的是封装某些对称群(如旋转)的东西,但不要太通用,这被称为独特的群等变性。你可以猜到,我们可以通过使用群作用以特定方式改变位置信息来实现这一点。结果,如果我们把绝对位置编码看作是一个 2D 网格,那么与 G-CNNs 有很多类比。

事实上,我们可以将相同的群变换应用于这个位置的 2D 网格,就像我们应用于 2D 卷积核一样。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a6e2d85c6328536647e7c783f70eb03e.png

具有绝对位置嵌入的提升自注意力。类似于 G-CNNs,我们将群作用应用于自注意力位置嵌入的索引以获得提升变换。©J. Hatzky

与 G-CNNs 中创建内核的作用版本不同,我们现在为绝对位置索引的 2D 网格创建作用版本。我们称此操作为提升自注意力

然后我们应用四个单独的多头自注意力操作,这为我们提供了相同输入图像的四个独特表示。

现在你可以希望看到这些步骤与分组卷积的相似之处。我们以类似的方式继续进行。我们定义了一个我们称之为分组自注意力的操作,它直接作用于我们索引的提升版本。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d037a9ff024cf407e859a262bd954387.png

具有绝对位置嵌入的分组自注意力。类似于 G-CNNs,我们将群作用应用于自注意力位置嵌入的索引以获得提升变换。©J. Hatzky

注意到分组自注意力导致内核旋转 90 度,并在群轴上发生循环排列。

在多个这样的分组自注意力层之后,我们进行类似于平均池化的池化操作,从而在群作用下创建不变性。我们现在构建一个对输入 90 度旋转不变的自我注意力操作。太棒了!

现在,让我们在提升自注意力分组自注意力的背景下考察等变性属性。为了评估这一点,我们将一张图像及其 90 度旋转后的对应图像输入到我们的网络中,观察模型表示在提升和分组自注意力操作后的演变。

通过审查模型表示的变化,我们获得了对等变性设计的有效性的见解。具体来说,我们试图了解网络对输入变化的响应,特别是旋转方面的变化。这种比较分析为模型在输入数据变换下保持一致和可解释(不变)表示的能力提供了细微的视角。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cbbe6f98566214408a1cb326a782c383.png

提升和分组自注意力层的特征表示行为。输入旋转导致网络中间特征表示发生旋转和循环排列。©J. Hatzky

显著的是,我们观察到网络的表示在 90 度旋转和循环排列下保持不变。这种模型响应的稳健一致性强调了所实现的等变性,证实了其在群作用下保持基本特征和模式的能力。

结论

所获得的见解突显了分组等变先验的潜在价值。在特定变换中维持一致表示的能力表明了一条提高整体网络性能和泛化的宝贵途径。将群等变性集成到网络架构中提供了提高稳定性和泛化的前景,使其成为在数据中可以利用几何模式的应用中的一种有吸引力的方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/29 9:48:11

Python+Vue的企业人事管理系统 Pycharm django flask

这里写目录标题项目介绍项目展示详细视频演示感兴趣的可以先收藏起来,还有大家在毕设选题(免费咨询指导选题),项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人技术栈文章下方名片联系我即可~解决的思路…

作者头像 李华
网站建设 2026/5/1 4:23:14

处理时间序列中的间隔

原文:towardsdatascience.com/handling-gaps-in-time-series-dc47ae883990 https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/25bd6f39a6c87567493d47435a112a45.png 图片由 Willian Justen de Vasconcellos 在 Unsplash 提供 …

作者头像 李华
网站建设 2026/5/1 5:42:52

风光储并网系统这玩意儿搞起来是真上头,今天拿2018b版本的Simulink整了个活。整套系统看着复杂其实拆开就是四个模块在搞接力赛,咱一个个盘

风光储并网发电系统仿真模型 共直流母线式风光储:风力发电光伏发电储能三相逆变并网 ①光伏Boost:采用电导增量法来实现光伏板最大功率跟踪 ②风机:拓扑采用三相整流电路,控制采用MPPT控制 ③蓄电池储能:采用双向Buck_Boost电路&a…

作者头像 李华
网站建设 2026/4/24 2:46:16

使用 Python 进行基于马尔可夫链的动手职业路径建模

原文:towardsdatascience.com/hands-on-career-path-modelling-using-markov-chain-with-python-022f09090c31 从职业角度来看,我是个非常奇怪的人:我在一家初创公司担任软件/机器学习工程师,我拥有物理学硕士学位,我即…

作者头像 李华
网站建设 2026/5/1 7:35:49

从零到英雄的 Python 数值导数

原文:towardsdatascience.com/hands-on-numerical-derivative-with-python-from-zero-to-hero-79eb5b5ffabf 至少在每所大学的实验室里都能找到一句著名的言论,它是这样的: 理论是你知道一切但什么都不起作用。实践是当一切起作用但没有人知道…

作者头像 李华
网站建设 2026/4/23 19:37:55

LobeChat功能特性动画脚本

LobeChat:构建下一代可扩展AI交互门户的技术解构 在大语言模型(LLM)能力逐渐普及的今天,一个现实问题摆在开发者和企业面前:如何让强大的AI真正“可用”?不是通过API密钥和命令行调用,而是以直观…

作者头像 李华