news 2026/4/30 15:22:25

DeepSeek新工作mHC:一个优化版的残差连接结构

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek新工作mHC:一个优化版的残差连接结构

前天,DeepSeek发布了一篇新的工作[1]。

标题是:mHC: Manifold-Constrained Hyper-Connections
翻译一下:mHC:流形约束的超连接

这篇工作是一个阶段性的研究成果,而不是模型更迭。

原文的数学性很强,本文主要从更容易理解的宏观层面,看看它在做什么。

回顾残差结构

这篇工作用一张图就能概括。

下图a是早已广泛应用的残差结构,图b是24年新提出的超链接结构(HC),图c则是这篇工作提出的mHC结构。

残差结构主要是应对解决深度神经网络的训练不稳定的问题。

因为当神经网络层数增加,每一层都有可能丢一部分信息,层出多了就容易出现梯度消失或梯度爆炸。

ResNet提出的残差结构是在旁路多加了一条 shortcut,即

输出 = x + F(x)

这样处理,就把网络从学一个复杂映射变成学一个接近 0 的修正项。

它可以保证网络每一层在最差情况下什么都不学,参数也和上一层保持一样,不会变坏。

这样网络就可以叠得更加深。

超链接结构(HC)

虽然普通残差很有效,但它会导致的一个现象是:“这一层的特征,只和上一层的同一条特征有关。”

因为每一层都是对应通道的相加,通道之间没有相互交流。

为了更充分地增加信息利用:HC 把 “一条残差流” 变成 “n 条并行残差流”,并允许它们互相交换信息。

这样处理,大模型会更“灵活”,特征组合方式更多样。

一句话总结:残差保证“不会退步”,HC 追求“用得更全”。

流形约束的超连接结构(mHC)

虽然HC的思想很好,但存在的一个局限性就是模型训练不稳定。

因为残差通道的组合是模型自己通过学习得到的,它破坏了残差连接固有的恒等映射特性,导致梯度消失/梯度爆炸会重新出现。并且,扩宽的残差流带来了显著的内存访问开销。

mHC的思路是将HC的残差连接空间投影到一个特定的流形(manifold)上,以恢复恒等映射特性,保障训练稳定。

同时,mHC还在系统层面,采用了内核融合、选择性重计算、通信重叠等方式减小内存访问开销。

mHC在27B的模型上进行了实验,发现训练的稳定性得到了提升。

并且,模型的性能整体也得到提升。

总之,这是一项偏基建类型的工作,作者团队也只是拿小参数量模型进行了验证。

估计这一项改进会应用到下一代的模型中,期待他们在过年前放出大招。

参考

[1] https://arxiv.org/pdf/2512.24880

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 11:57:53

IQuest-Coder-V1:国产大模型出现了新玩家

前天,除了DeepSeek发布了新工作之外,另一个国内量化团队也搞了一个大动静。 九坤投资在去年成立的至知创新研究院团队发布了 IQuest-Coder-V1。 这是一个专注于代码领域的垂类模型,参数仅40B,不是MoE结构,而是Dense架构…

作者头像 李华
网站建设 2026/5/1 7:53:23

论文降AI率实测结果分享,论文降AI率哪些工具真的有用

现如今,越来越多人开始用AI写论文,据统计,73%以上的大学生都表示曾使用过ai来辅助写论文。然而,各大查重平台也开始严格查AI率,各大高校也有明文规定,AI率超过30%的视为学术不端行为,直接影响学…

作者头像 李华
网站建设 2026/4/21 7:41:28

论文降AI率别再熬夜改了,论文降AI率工具直接用

现如今,越来越多人开始用AI写论文,据统计,73%以上的大学生都表示曾使用过ai来辅助写论文。然而,各大查重平台也开始严格查AI率,各大高校也有明文规定,AI率超过30%的视为学术不端行为,直接影响学…

作者头像 李华
网站建设 2026/4/30 3:36:22

论文降AI率快速通过知网?论文降AI率工具实测分享

现如今,越来越多人开始用AI写论文,据统计,73%以上的大学生都表示曾使用过ai来辅助写论文。然而,各大查重平台也开始严格查AI率,各大高校也有明文规定,AI率超过30%的视为学术不端行为,直接影响学…

作者头像 李华
网站建设 2026/5/1 1:41:33

ComfyUI-BrushNet终极配置指南:彻底解决模型加载失败的实用方案

在图像修复和内容编辑领域,ComfyUI-BrushNet以其即插即用的特性赢得了众多用户的青睐。然而,许多用户在实际部署过程中都会遇到模型加载失败的问题,这不仅影响了工作效率,也降低了使用体验。本文将提供一套经过实战验证的完整解决…

作者头像 李华
网站建设 2026/4/24 6:08:47

论文降AI率一直不过怎么办?论文降AI率七款工具真实体验分享

现如今,越来越多人开始用AI写论文,据统计,73%以上的大学生都表示曾使用过ai来辅助写论文。然而,各大查重平台也开始严格查AI率,各大高校也有明文规定,AI率超过30%的视为学术不端行为,直接影响学…

作者头像 李华