news 2026/4/30 17:28:28

DeepSeek 的 mHC

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek 的 mHC

DeepSeek 的 mHC

纪牛牛 吃果冻不吐果冻皮2026年1月9日 22:43四川

在小说阅读器中沉浸阅读

原文:https://zhuanlan.zhihu.com/p/1991140563672664024

大约在去年同一时间段(2025年1月初),DeepSeek 凭借 R1 的发布彻底革新了AI 行业。

如今,DeepSeek 又为2026年开了个好头,发布了一篇引人瞩目的新论文《mHC: Manifold-Constrained Hyper-Connections[1]》,该论文目前已引发广泛关注,有望成为2026年下一次重大人工智能突破的关键推动力。论文建立在字节早先一篇名为《Hyper-Connections[2]》的论文基础之上。

在深入探讨之前,我们需先厘清“残差连接”(Residual Connections)的概念,从而准确理解其研究动机。

下图左一展示了一个标准残差连接,它最初于2016年随ResNet提出。该图并非展示完整模型,而仅示意一个残差块(residual block),用以说明单条残差连接的原理。底部输入为第 l 层的信号 (来自模型前一层),该信号随后分两路流动:

  • • 右侧:输入经模块 layer-F 处理。此模块可为前馈网络、自注意力模块,或其他任意架构单元;

  • • 左侧:残差流(residual stream)直接将原始输入无修改地向前传递

两路信号随后按element wise相加,形成该块的输出,其数学表达为: 。

大模型中为什么要有这样的结构讨论的不多,可以这样来直观理解:虽然图中仅绘出单层结构,但当多层堆叠时,残差连接能确保原始输入信号深入网络内部的同时有效防止信息丢失

核心原因在于它有效缓解了“梯度消失”问题:原始输入的无损传递,相当于在优化目标函数中额外引入了一个恒等映射,其梯度恒为1;即便模块layer-F 的梯度趋近于零整体梯度仍能保持稳定。

在此基础上,字节的团队在2025年提出超连接(Hyper-Connections)的概念,旨在对残差连接进行泛化,(上图中间这个结构)。

核心思想就是通过拓宽残差流自身来扩展残差连接,即不再仅传递单一残差向量,而是将其扩展为多个分量,并在每一层通过可学习映射动态混合,来增强表达能力。

  • • 底部输入被复制扩展(图例中为4份),构成模型维护的拓宽残差流(初始均为原始输入的副本)

  • • 左侧:拓宽后的残差流通过一个可学习的残差映射矩阵进行混合。这意味着不再依赖各层固定的恒等路径,而是让模型自主学习信息如何在残差流中混合与传播;这样做计算开销增幅极小,因扩展倍率通常很小(如本例中的4倍);

  • • 右侧:扩展后的输入先被投影回原模型维度,再送入layer-F模块处理,从而避免昂贵模块(如注意力或FFN)承担高维计算负担;

  • 模块 layer-F 的输出再经另一可学习矩阵扩展,最终与残差分量相加,形成本层输出,并作为下一层输入。

毋庸置疑,该设计大幅提升了模型沿残差路径的信息表达能力,即信息跨层流动更加灵活。

然而,这种灵活性也是有代价的:在原始的标准残差连接中,架构本身保证了恒等映射的存在,这对大规模深层网络训练至关重要。

而DeepSeek指出,超连接破坏了这一保障,因其依赖无约束的可学习混合权重矩阵,残差流可能偏离开恒等路径,导致信号在前向或反向传播中发生爆炸或衰减,动摇残差学习赖以成立的“无阻碍信号流”根本前提,进而引发模型训练不稳定。

这正是DeepSeek提出流形约束超连接(manifold-Constrained HC) 所要解决的核心问题。

为应对超连接带来的不稳定性,DeepSeek并未牺牲其灵活性,其核心思想是在完全保留超连接表达能力的前提下,重建残差连接赖以成功的恒等性保障

细看最右图:mHC块与HC块结构几乎一致,信息流路径相同,唯一关键区别在于残差混合矩阵,它不再无约束,而是施加了特定结构约束,以稳定跨层信号传播。mHC残差混合矩阵中所有元素非负;每行、每列元素之和均为 1。

满足上述性质的矩阵称为双随机矩阵(doubly stochastic);实践中,可通过1967年经典的Sinkhorn–Knopp算法强制实现该约束,即:

  • • 每个输出残差分量接收等量的总输入信号;

  • • 每个输入残差分量对输出的总贡献量相同。

这样下来,即便信息可在多路径间自由混合,拓宽后的残差流仍在全局层面保持了“类恒等”特性。

同时,投影矩阵(扩展前/后的线性映射)也与标准HC不同:DeepSeek通过Sigmoid函数强制其非负。

这里的动机在于若投影中正负系数共存,可能导致信号相互抵消,进而引发大规模训练不稳定。

最后是实验效果,他们在预训练中评估了三种变体:

  • 基线模型(无超连接)

  • 标准超连接(HC)模型

  • • 论文提出的流形约束超连接(mHC)模型。

所有模型均采用受DeepSeek-V3启发的混合专家(MoE)架构;HC与mHC均采用4倍扩展的残差流。

上表对比了参数量均为27B的三类模型在多项下游任务上的表现。两种超连接模型均优于基线,验证了拓宽残差流可提升性能。

更重要的是,mHC在所有任务中持续取得最优结果(见表格最后一行)。表明 mHC在保留超连接优势的同时,实现了更全面的下游性能提升。

引用链接

[1]mHC: Manifold-Constrained Hyper-Connections:https://arxiv.org/abs/2512.24880
[2]Hyper-Connections:https://arxiv.org/abs/2409.19606

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 3:53:49

arm版win10下载下UWP应用侧载安装操作指南

在ARM版Windows 10上侧载UWP应用:从入门到实战你有没有遇到过这种情况?手里的Surface Pro X明明性能不弱、续航惊人,打开Microsoft Store却发现很多常用软件“此设备不支持”——尤其是那些没为ARM64编译的UWP应用。更别提一些内部测试工具、…

作者头像 李华
网站建设 2026/4/25 4:36:58

一文说清ArduPilot与Pixhawk硬件匹配要点

ArduPilot 与 Pixhawk 到底怎么配?一文讲透硬件兼容的底层逻辑 你有没有遇到过这样的情况:新买的 Pixhawk 飞控,刷上 ArduPilot 固件后 USB 能连上,地面站也能识别,但 GPS 死活不工作、电机没反应,甚至自检…

作者头像 李华
网站建设 2026/4/16 19:55:11

AI分析用电数据,自动关闭待机设备或切换节能模式

以下是通过网络搜索整理的相关智能家居AI使用指南实用技巧,结合中文文献和实际应用场景归纳而成:智能家居AI优化生活效率的10个技巧自动化场景联动 通过AI学习用户习惯,设置起床模式自动开启窗帘、调节室温;离家模式关闭非必要电器…

作者头像 李华
网站建设 2026/5/1 0:05:07

线程隔离:每个线程有自己的 ThreadLocalMap 副本

一、核心原理 1. 数据存储结构 // 每个 Thread 对象内部都有一个 ThreadLocalMap ThreadLocal.ThreadLocalMap threadLocals null;// ThreadLocalMap 内部使用 Entry 数组&#xff0c;Entry 继承自 WeakReference<ThreadLocal<?>> static class Entry extends We…

作者头像 李华
网站建设 2026/4/27 5:06:44

我干开发这些年-交易中台篇之核心设计

交易中台核心能力实现&#xff1a;以下单页渲染为例 引言 上一篇讲了交易中台的由来和作用&#xff0c;交易中台就是将变与不变发挥到极致的软件架构。将不变的部分固化在中台&#xff0c;变的部分开放出去提供给各个业务线自己定制。 本篇讲交易中台具体是如何实现这种能力…

作者头像 李华